Содержание к диссертации
Введение
1. Обзор литературы 17
1.1. Архитектура молекул мнс и tcr 18
1.2. Функции молекул мнс, процессинг и презентация антигенов
1.2.1. Процессинг антигенов 23
1.2.2. Протеасома 24
1.2.3. Транспорт пептидов в эпр 26
1.2.4. Полиморфизм молекул МНС i класса 27
1.2.5. Мнс 1-зависимый путь процессинга и презентации антигенов в цифрах 28
1.2.6. Мнс п-зависимый путь процессинга и презентации антигенов
1.3. Предсказание т-клеточных эпитопов 32
1.4. Использование клеточных технологий для разработки новых способов иммунотерапии онкологических заболеваний. Полиэпитопные антигены 45
2. Материалы и методы 52
2.1. Формулировка моделей предсказывающих аффинность связывания олигопептидов с молекулами мнс 52
2.2. Параметризация аминокислот и олигопептидов 53
2.3. Метод частных наименьших квадратов (pls) 55
2.4. Метод spls (sparse partial least squares) 55
2.5. Использованное программное обеспечение 56
2.6. Дополнительные модели, использованные в программах tepredict и polyctldesigner 57
3. Результаты и обсуждение 59
3.1. Создание статистических моделей для предсказания аффинности связывания олигопептидов с различными алломорфами молекул hla і класса 59
3.2. Создание программы tepredict
3.3. Обновление статистических моделей, используемых программой tepredict для предсказания т-клеточных эпитопов 73
3.4. Разработка программного обеспечения для рационального дизайна полиэпитопных т-клеточных антигенов 88
3.5. Проектирование полиэпитопных меланомных антигенов 94
Заключение 107
Выводы 111
Благодарности 113
Список литературы
- Полиморфизм молекул МНС i класса
- Предсказание т-клеточных эпитопов
- Метод частных наименьших квадратов (pls)
- Обновление статистических моделей, используемых программой tepredict для предсказания т-клеточных эпитопов
Введение к работе
Актуальность проблемы. Т-клеточные эпитопы приобретают все большее значение в качестве инструментов для разработки новых средств иммунодиагностики и иммунотерапии, а также для проектирования искусственных полиэпитопных антигенов - вакцин против инфекционных и онкологических заболеваний (Berzofsky & Berkower, 1995; Woodberry et al., 1999; Bazhan et al, 2004; Tine et al., 2005; Iglesias et al, 2007; Cardinaud et al., 2009). Разработка компьютерных методов предсказания Т-клеточных эпитопов является одной из главнейших задач биоинформатики в области иммунологии, так как применение программ, предсказывающих Т-клеточные эпитопы, позволяет значительно сократить временные и материальные затраты по сравнению с использованием при поиске новых эпитопов и разработке полиэпитопных антигенов только экспериментальных подходов (Liu et al., 2011). Несмотря на то, что к настоящему времени создано большое количество различных программ для предсказания Т-клеточных эпитопов (Singh & Raghava, 2003; Nielsen et al., 2004; Wan et al., 2006; Kim et al., 2012), разработка новых методов остается по-прежнему актуальной задачей, так как ни один из ныне существующих методов не может быть признан единственно верным и превосходящим прочие, и поскольку использование консенсусного подхода, объединяющего возможности различных алгоритмов, в значительной степени превосходит по качеству предсказаний Т-клеточных эпитопов каждый из методов по отдельности (Wang et al., 2008; Lafuente & Reche, 2009).
Конструирование полиэпитопных Т-клеточных антигенов, содержащих множественные Т-клеточные эпитопы, является одним из наиболее многообещающих подходов к созданию новых эффективных и безопасных вакцин (Berzofsky & Berkower, 1995; Woodberry et al., 1999; Bazhan et al., 2004; Tine et al, 2005; Iglesias et al, 2007; Cardinaud et al, 2009). Несмотря на то, что в первых работах, посвященных изучению ДНК-вакцин, кодирующих искусственные полиэпитопные антигены, была показана способность конструкций, составленных в результате простого объединения эпитопов, индуцировать цитотоксический Т-клеточный ответ на все эпитопы, включенные в их состав (Thomson et al., 1995), в дальнейшем было обнаружено, что иммуногенность пептидов в составе полиэпитопа в значительной степени зависит от фланкирующих аминокислотных остатков (Livingston et al, 2001). Введение в состав полиэпитопного антигена спейсерных аминокислотных последовательностей, обеспечивающих образование сайтов протеасомного расщепления между эпитопами и оптимизирующих связывание пептидных фрагментов с TAP (транспортерами, ассоциированными с процессингом антигенов, транслоцирующими олигопептиды в эндоплазматический ретикулум), приводит к увеличению иммуногенности за счет повышения эффективности процессинга и презентации целевых эпитопов иммунной системе (Ishioka et al., 1999; Livingston et al., 2001; Cardinaud et al, 2009). Кроме того, существенное влияние на иммуногенность оказывают перестановки эпитопов в составе полиэпитопной конструкции (Livingston et al., 2001).
Однако, несмотря на большое количество работ, посвященных конструированию полиэпитопных антигенных конструкций и исследованию их иммуногенности и протективности, к настоящему моменту не было предложено ни одного алгоритма рационального конструирования полиэпитопных Т-клеточных антигенов.
Цели исследования. Разработка новых методов предсказания Т-клеточных эпитопов и алгоритмов рационального дизайна полиэпитопных Т-клеточных антигенов.
Задачи исследования:
-
Разработка статистических моделей, предсказывающих аффинность связывания олигопептидов с различными алломорфами молекул MHC.
-
Выбор оптимальной схемы параметризации пептидов в результате сравнения качества предсказаний, полученных моделями, использующими различные способы параметризации олигопептидов - записи аминокислотных последовательностей в виде разреженных векторов (факторизация аминокислот), либо в виде векторов физико- химических свойств аминокислотных остатков.
-
Подтверждение качества полученных предсказательных моделей в результате сравнительного тестирования с рядом других известных методов предсказания Т-клеточных эпитопов (SYFPEITHI, ProPredl, SVMHC, SVRMHC, NetMHC, SMMPMBEC и IEDB_recommended).
-
Формализация задачи рационального дизайна полиэпитопных антигенов и разработка алгоритма ее решения, выбирающего наилучшие спейсерные последовательности для каждой пары эпитопов и подбирающего оптимальное взаимное расположение эпитопов в составе полиэпитопа с целью увеличения эффективности презентации целевых эпитопов и минимизации количества нецелевых.
-
Создание на основе разработанных алгоритмов и методов программного обеспечения для предсказания Т-клеточных эпитопов и для проектирования полиэпитопных Т-клеточных антигенов.
-
Конструирование с помощью созданного программного обеспечения прототипа полиэпитопного антигена меланомы человека для верификации разработанных моделей, алгоритмов и программ.
Научная новизна и практическая значимость. В рамках данной работы были разработаны статистические регрессионные модели для предсказания аффинности связывания олигопептидов с 35 различными аллельными вариантами молекул HLA I класса. Полученные модели продемонстрировали высокое качество предсказаний. Впервые было проведено исследование, направленное на выявление скрытой размерности пространства, описывающего взаимное сходство иммунохимических свойств аминокислотных остатков. Впервые была формализована задача рационального дизайна полиэпитопных Т-клеточных антигенов и разработан алгоритм ее решения.
На основе разработанных моделей и алгоритмов было создано программное обеспечение для предсказания Т-клеточных эпитопов (TEpredict) и рационального дизайна полиэпитопных Т-клеточных антигенов (PolyCTLDesigner). Был проведен дизайн полиэпитопного антигена, составленного из предсказанных CD8+ и CD4+ Т-клеточных эпитопов 6 антигенов меланомы человека, и получена ДНК-вакцинная конструкция, несущая искусственный ген, кодирующий целевой полиэпитоп. Изучение созданной ДНК-вакцины в системе индукции Т-клеточного иммунного ответа ex vivo подтвердило иммуногенность полиэпитопной конструкции и перспективность выбранного направления исследований.
Разработанные в рамках исследования методы, алгоритмы и программное обеспечение могут быть использованы для проектирования полиэпитопных антигенов - новых кандидатных иммунотерапевтических и профилактических вакцин от онкологических и инфекционных заболеваний человека.
Положения, выносимые на защиту:
-
-
Разработанные статистические регрессионные модели предсказывают аффинность связывания нонамерных пептидов с 35 аллельными вариантами молекул MHC I класса человека.
-
Модели, использующие кодирование пептидов в виде векторов свойств составляющих их аминокислотных остатков, обеспечивают большую специфичность при соответствующей чувствительности предсказаний, по сравнению с моделями, кодирующими олигопептиды в виде разреженных векторов.
-
Разработанные модели по качеству предсказаний превосходят такие методы как SYFPEITHI, ProPredl, SVMHC и SVRMHC и не уступают лучшим современным методам предсказания Т-клеточных эпитопов NetMHC, SMMPMBEC и IEDB_recommended.
-
Разработанный алгоритм рационального дизайна полиэптопных Т-клеточных антигенов позволяет оптимизировать структуру полиэпитопной конструкции с учетом современных знаний о путях процессинга белковых антигенов и их презентации иммунной системе.
-
Полиэпитопная конструкция MEL-TCI-A0201, спроектированная с помощью разработанных моделей и алгоритмов, содержащая множественные CD4+ и CD8+ Т-клеточные эпитопы основных антигенов меланомы человека, обладает способностью индуцировать специфический Т-клеточный иммунный ответ.
Вклад автора. Создание статистических регрессионных моделей для предсказания аффинности связывания олигопептидов с 35 аллельными вариантами молекул HLA I класса, создание программного обеспечения для предсказания Т-клеточных эпитопов и разработка алгоритма и программного обеспечения для дизайна полиэпитопных Т-клеточных антигенов, проектирование Т-клеточных полиэпитопных антигенов было осуществлено автором лично. Получение ДНК-вакцин, кодирующих целевые полиэпитопные антигены, было осуществлено сотрудниками отдела биоинженерии ФБУН ГНЦ ВБ «Вектор». Исследование иммуногенности созданных полиэпитопных антигенов проведено сотрудниками лаборатории молекулярной иммунологии НИИ Клинической иммунологии СО РАМН без участия автора.
Структура и объем работы. Диссертация изложена на 144 страницах машинописного текста и состоит из введения, обзора литературы, главы «Материалы и методы», главы «Результаты и обсуждение», заключения, выводов и списка литературы. Библиография включает 274 работы. Работа иллюстрирована 24 рисунками и включает 6 таблиц.
Апробация результатов диссертации и публикации. По материалам диссертационной работы опубликовано 5 статьей в реферируемых научных журналах, входящих в список ВАК, подана заявка на патент РФ (регистрационный № 2012136088 от 21.08.2012 г.). Результаты работы были представлены на 17 международных и российских конференциях.
Программное обеспечение, созданное в рамках данной работы, опубликовано на сайте проекта () под свободной лицензией Creative Commons Attribution Non-Commercial License V2.0 (CC BY- NC 2.0). С момента создания было загружено более 200 раз пользователями из 30 стран.
Полиморфизм молекул МНС i класса
Молекулы МНС I класса экспрессируются всеми ядерными клетками и представляют Т-лимфоцитам олигопептидные фрагменты белков, синтезированных внутри клетки. Эти белки расщепляются протеасомой на короткие фрагменты, которые транспортируются в эндоплазматический ретикулум (ЭПР) с помощью особого транспортного комплекса ТАР (transporters associated with antigen presentation). В ЭПР пептид связывается с гетеродимерной молекулой МНС I, состоящей из полиморфной тяжелой цепи и легкой цепи, называемой [Зг-микроглобулином. В отсутствие пептида молекула МНС I класса стабилизируется взаимодействуя с кальретикулином, ERp75 (PDIA3), дисульфид изомеразой PDI и тапазином -шаперонными молекулами ЭПР. Тапазин взаимодействует с ТАР, связывая таким образом транслокацию пептидов в ЭПР с их доставкой молекулам МНС I. Когда с молекулой МНС I связывается пептид, белки шапероны диссоциируют и комплекс пептида с молекулой МНС направляется на поверхность клетки для презентации (Neefjes et al., 2011; Vyas et al., 2008). Пептиды, не связавшиеся с МНС I, и молекулы МНС I, не связавшиеся с пептидами, направляются в цитозоль для деградации (Hughes et al., 1997; Koopmann, 2000).
Время полужизни различных белковых молекул варьирует от нескольких минут до нескольких дней, и следовало бы ожидать, что время от синтеза белковой молекулы до презентации ее пептидных фрагментов в комплексе с МНС I на клеточной поверхности должно соответствовать времени полужизни. Однако показано, что вирусные антигены презентируются молекулами МНС I намного быстрее. По-видимому, это обусловлено тем, что значительная доля белков (30-70 %) немедленно после трансляции подвергается деградации (Reits et al., 2000; Schubert, 2000). Возможно, это происходит в результате ошибок транскрипции или трансляции, из-за мисфолдинга и т.п. (Berglund et al., 2007; Dolan, 2011; Li, 2011; Netzer, 2009; Yewdell, Hickman, 2007). Такие полипептиды, подвергающиеся немедленной деградации, называются DRiPs -defective ribosomal products (Neefjes et al., 2011; Yewdell, Haeryfar, 2005). Считается, что DRiPs подвергаются немедленной деградации, чтобы не допустить агрегации белков, снижающей жизнеспособность клетки. Таким образом, можно объяснить, почему Т-лимфоциты способны распознавать кл тки, инфицированные вирусом гриппа, всего через 1.5 часа после заражения, а не через 8 часов, когда начинают деградировать первые стабильные вирусные белки (Khan, 2001). Однако в настоящее время высказываются сомнения в правоте гипотезы о существовании DRiPs. Было предположено, что процесс деградации вновь синтезируемых белков все же является стохастическим, и в нормальных условиях определенное количество вновь синтезируемых в клетке белков подвергается деградации, и что базальный уровень деградации белков определяется в первую очередь активностью 20S протеасом (Eisenlohr et al., 2007).
Показано, что часть молекул МНС I никогда не связывается с пептидами и подвергается протеолизу (Neefjes, Ploegh, 1988). Таким образом, основным фактором, лимитирующим МНС 1-зависимую презентацию антигенов, является концентрация соответствующих пептидов, обусловленная скоростью синтеза соответствующих белков. И различные факторы, влияющие на синтез белков, например, такие как действие IFNy или ионизирующей радиации, могут оказывать существенное влияние на МНС 1-зависимую презентацию антигенов (Ferrara et al., 2009; Reits, 2006). 26S протеасома состоит из коровой 20S части, обладающей протеолитической активностью и двух регуляторных 19S субъединиц (Groettrup et al., 2010). Протеасомы могут существовать во множестве форм: свободные 20S протеасомы, состоящие только из протеолитических единиц, и 26S протеасомы, состоящие из 20S протеасомы и 1-2 молекул РА700 или 20S протеасомы и 1-2 молекул РА28, или из 20S протеасомы и РА700 с РА28 (Wojcik, DeMartino, 2003). Показано, что протеасома генерирует большинство пептидов для МНС-1-зависимой презентации, и что именно в результате протеасомного расщепления формируются С-концы этих пептидов (Cascio et al., 2001; Craiu et al, 1997; Mo et al., 1999). Длинные пептиды далее подвергаются N-концевому триммингу под действием аминопептидаз (Yewdell, Haeryfar, 2005; Zarling, 2003). Помимо основной конститутивной протеасомы описано две альтернативные формы: иммунопротеасома, экспрессируемая многими клетками иммунной системы, и тимус-специфическая протеасома, экспрессируемая эпителиальными клетками тимуса (Sijts, Kloetzel, 2011). Эти формы протеасом содержат в составе 20S коровой части соответствующие альтернативные протеолитические (З-субъединицы (Groettrup et al., 2010; Nitta, 2010; Sijts, Kloetzel, 2011). По-видимому, могут образовываться и переходные формы протеасом (Wojcik, DeMartino, 2003). Ранее считалось, что в результате иммунопротеасомного процессинга антигенов специфически увеличивается количество иммуногенных пептидов по сравнению с неиммуногенными (Groettrup et al., 2010), однако в настоящее время показано, что иммунопротеасомы обладают значительно более высокой протеолитической активностью, чем конститутивные 26S протеасомы, и, по-видимому, основной функцией иммунопротеасом является более эффективная деградация дефектных белковых молекул, накапливающихся в клетке под действием иммунного стресса (Neefjes et al., 2011). При нарушении функций протеасомы нерасщепленные белки могут, накапливаясь, формировать агресомы, которые способствуют дальнейшему снижению функций протеасом и могут вызвать апоптоз (Wojcik, DeMartino, 2003).
Протеасомы присутствуют в эукариотических клетках в значительном количестве и встречаются как в цитоплазме, так и в ядре. На долю протеасом в некоторых клетках (особенно в метаболически активных и делящихся клетках) может приходиться около 0.6 % от общего количества белка. В цитоплазме протеасомы ассоциированы с центромерами, элементами цитоскелета и наружной мембраной ЭПР (Wojcik, DeMartino, 2003). Значительная часть 20S протеасом ассоциирована с ЭПР. Высказывались предположения о непосредственной связи протеасом с комплексом ТАР - транспортеров, ассоциированных с процессингом антигенов, однако эта гипотеза все еще не подтверждена (Wojcik, DeMartino, 2003).
При изучении пептидов, презентируемых молекулами МНС I класса, было обнаружено, что некоторые из этих пептидов не кодируются геномом. Оказалось, что протеазы, расщепляющие полипептиды, в тоже время могут и лигировать пептидные фрагменты (Dalet, 2011; Hanada et al., 2004; Mester et al., 2011; Vigneron, 2004).
Предсказание т-клеточных эпитопов
В данной работе предсказательные модели создавались с помощью методов машинного обучения, поскольку именно они в настоящее время демонстрируют наиболее высокую точность предсказаний (Lafuente, Reche, 2009; Liao, Arthur, 2011). Было выбрано два основных метода машинного обучения: метод опорных векторов (SVM - support vector machine), успешно использованный для создания таких программ для предсказания Т-клеточных эпитопов, как SVMHC (Donnes, Elofsson, 2002) и SVRMHC (Liu et al., 2006), и метод частных наименьших квадратов (PLS) (см. 2.3), использованный при создании MHCpred (Guan et al., 2003). В ходе работы было решено отказаться от использования метода опорных векторов, так как модели, построенные с его помощью, зачастую оказывались переобучены (overfitted) - то есть несмотря на низкий уровень ошибок предсказаний для тренировочного набора демонстрировали плохое качество предсказаний для тестового набора пептидов. Была поставлена задача создать модели не просто классифицирующие пептиды на те, которые связываются или не связываются с данным аллельным вариантом молекулы МНС, а предсказывающие аффинность связывания пептидов с молекулами МНС.
В качестве источника информации для обучения моделей -экспериментально определенных параметров взаимодействия пептидов с молекулами МНС - была выбрана база Immune Epitope Database (IEDB) (Peters et al., 2005), самый полный на сегодняшний день ресурс, посвященный эпитопам. Секвенирование пептидов, элюированных из комплексов с МНС, и анализ пространственных структур этих комплексов показали, что большинство пептидов, взаимодействующих с молекулами МНС I класса, имели длину в девять аминокислот (Lundegaard et al., 2010а; Rudolph et al., 2006). Поэтому для построения предсказательных моделей мы использовали данные, полученные только для нонамерных пептидов. Были собраны тренировочные наборы пептидов, для которых были известны количественные характеристики связывания с любым из 35 аллельных вариантов молекул HLA I класса (HLA-A 0101, А 0201, А 0202, А 0203, А 0206, А 0301, А 1101, А 2301, А 2402, А 2403, А 2601, А 2902, А 3001, А 3002, А 3101, А 3301, А 6801, А 6802, А 6901, В 0702, В 0801, В 1501, В 1801, В 2705, В 3501, В 4001, В 4002, В 4402, В 4403, В 4501, В 5101, В 5301, В 5401, В 5701, В 5801) - значения 1С5о, концентрации полумаксимального ингибирования. Величина 1С5о определяется в результате исследования конкурентного ингибирования связывания с молекулой МНС меченого референсного пептида различными концентрациями исследуемого пептида (Burg van der et al., 1996; Sette et al., 1994). Однако стоит отметить, что IC50 не является абсолютной мерой аффинности, и ее величина может довольно сильно варьировать в зависимости от условий, поэтому сопоставлять значения, полученные в результате различных серий экспериментов, следует с осторожностью. Таким образом, при построении регрессионной модели зависимости меры аффинности (р1С50 - отрицательного десятичного алгоритма значения IC50, выраженного в нМ) связывания молекулы МНС с пептидом от аминокислотной последовательности пептида помимо величины ошибки предсказания мы должны дополнительно контролировать специфичность и чувствительность предсказаний, получаемых при использовании различных пороговых значений р1С50 Пороговые значения р1С5о были выбраны на основе литературных данных о зависимости иммуногенности пептидов от аффинности их связывания с молекулами МНС (Sette et al., 1994). Было показано, что пептиды, для которых значение 1С5о, превышает 500 нМ (соответствует низко аффинности связывания с молекулой МНС), практически не обладают способностью индуцировать цитотоксический Т-клеточный ответ; и что большинство иммуногенных пептидов связывается с молекулами МНС с высокой или средней аффинностью - при этом значения 1С50 50 нМ, либо находятся в пределах от 50 до 500 нМ, соответственно. При построении моделей мы считали, что пептиды со значением р1С5о ниже 6.3 не связываются с данным аллельным вариантом молекулы МНС и не могут являться Т-клеточными эпитопами.
Пептиды, для которых аффинность связывания была измерена недостаточно точно или была охарактеризована лишь качественно, вошли в тестовые наборы. В данном случае это методологически допустимо, поскольку конечной целью является все же высокая точность классификации пептидов на связывающиеся и не связывающиеся с определенными аллельными вариантами молекул HLA. Кроме того, были созданы и расширенные тестовые наборы, в которые включались пептиды с длиной, превышающей 9 а.к.о. При обучении моделей использовался метод полной кросс-валидации (LOO - leave one out). В дальнейшем при построении новых моделей (см. 3.3) от процедуры LOO было решено отказаться, поскольку она может приводить к переобучению. Поэтому при обновлении предсказательных моделей была использована 5- или 10-сегментная кросс-валидация.
Для параметризации пептидов вместо записи аминокислот в виде разреженных векторов применялась запись аминокислот в виде векторов свойств, поскольку такой подход позволяет учесть взаимное различие (или сходство) аминокислот, как это было отмечено в литературе (Kim et al., 2009; Nielsen et al., 2003; Wan et al., 2006). Было использовано несколько схем кодирования: запись аминокислот в виде векторов с 10 координатами -значениями, взятыми из шкал, разработанных Kidera и др. (К10) (Kidera et al., 1985); запись в виде векторов с 11 координатами, соответствующими значениям, взятым из шкал, разработанных Лю и др. (Lll) (Liu et al., 2006), и запись в виде соответствующих строк матрицы THREADER_NORM (THDR) (Dosztanyi, Torda, 2001). Все используемые шкалы были линейно масштабированы к интервалу 0.1-0.9. Матрица была приведена к симметричному виду и нормирована согласно By и др. (Wu et al., 2006). Модели для предсказания аффинности связывания пептидов с молекулами МНС зачастую основаны на предположении о независимости вкладов отдельных аминокислот, и для пептида энергия связывания с молекулой МНС может быть представлена как сумма вкладов каждого аминокислотного остатка (Parker et al., 1994). Также были созданы модели, позволяющие учесть взаимное влияние соседних пар и троек аминокислот. Согласно шкале, используемой для параметризации (К10, L11 или THDR) нонамерные пептиды записывались в виде векторов с 90, 99 или 180 координатами, соответственно; в моделях, учитывающих влияние соседних аминокислот, нонапептиды записываются как вектора с 240, 264 или 480 координатами, соответственно.
Полученные модели были протестированы на данных, не включенных в тренировочные выборки (см. выше). Качество предсказательных моделей оценивалось с помощью пакета программ для R ROCR (Sing et al., 2005). Согласно результатам тестирования для каждого из аллельных вариантов МНС были выбраны наилучшие модели. В двух из них для параметризации аминокислот используется шкала К10; в восьми - шкала L11 и в 25 моделях используется шкала THDR (Табл. 2).
Чтобы оценить качество полученных моделей, мы использовали пептиды из IEDB, не включенные в обучающие выборки. 25 моделей продемонстрировали хорошее качество предсказания значение площади под графиком (AUC - Area Under the Curve) «специфичность vs. чувствительность», которое было не меньше 0.76: у 20 из них значение AUC было больше 0.8 (А 0101, А 0201, А 0206, А 0301, А 1101, А 2402, А 2403, А 3001, А 3101, А 3301, А 6801, А 6802, А 6901, В 0702, В 0801, В 1501, В 2705, В 4402, В 5701, В 5801), для 8 моделей полученное значение AUC превысило 0.9 (высокое качество предсказаний). При пороговом значении р1С5о, равном 6.3, для всех выбранных моделей специфичность (Спец.) предсказаний находилась в диапазоне от 0.25 до 1.0 (медианное значение
Метод частных наименьших квадратов (pls)
Как и при построении первых моделей, описанных ранее, исходили из предположения о независимости вкладов отдельных аминокислот, и что для пептида энергия его связывания с молекулой МНС может быть представлена как сумма вкладов каждого из аминокислотных остатков (Parker et al., 1994). В качестве количественной меры аффинности связывания олигопептида с молекулой МНС для построения моделей мы использовали значение р1С5о -отрицательного десятичного логарифма значения 1С5о (50 % ингибирующей концентрации). Кроме того, в ходе работы были построены и модели, учитывающие взаимное влияние соседних аминокислот, однако от их использования мы отказались, поскольку они отличались большей сложностью (большим количеством скрытых компонент) и большей склонностью к переобучению, и при этом практически не превосходили по качеству предсказаний модели, предполагавшие независимость вкладов аминокислотных остатков пептида.
Выбор схемы параметризации олигопептидов оказывает существенное влияние на точность моделей, особенно когда построение модели выполняется на основе небольшого тренировочного набора данных. В нашем случае количество образцов в тренировочном наборе составляло от нескольких сотен до нескольких тысяч пептидов, в то время как теоретически возможное количество различных нонапептидов равно 5.12 xlO11 (209). Таким образом, выбор адекватной меры взаимного сходства аминокислотных остатков позволяет создать более точные модели, чем при использовании разреженных векторов (sparse encoding) для кодирования пептидов (Kim et al., 2009; Wan et al., 2006). Аминокислотный остаток, записанный в виде разреженного вектора, представляет собой вектор из 20 элементов, в котором 19 элементов равны нулю, а единственный ненулевой элемент (единица) кодирует соответствующую аминокислоту. Нонапептид в таком случае представляет собой вектор из 180 элементов, в котором каждая единица кодирует определенную аминокислоту и ее положение. В данной работе в качестве исходной схемы параметризации пептидов нами была использована недавно разработанная матрица сходства аминокислотных остатков РМВЕС (Kim et al., 2009), основанная на экспериментально определенной аффинности связывания олигопептидов с различными аллельными вариантами молекул МНС, поскольку авторами было убедительно показано превосходство моделей, построенных с помощью матрицы РМВЕС над моделями, построенных с помощью записи пептидов в виде разреженных векторов или с помощью матрицы BLOSUM62. В отличие от BLOSUM62 согласно матрице РМВЕС аминокислотные остатки, имеющие противоположные заряды, существенно отличаются, что гораздо более обосновано с физической точки зрения при анализе взаимодействия пептидов с молекулой МНС и белок-белковых взаимодействий вообще (Kim et al., 2009). Кроме того, были созданы SPLS модели, использующие для параметризации пептидов матрицу сходства аминокислотных остатков THDR (Dosztanyi, Torda, 2001), показавшую хорошие результаты ранее (Salomon, Flower, 2006).
Однако матрица РМВЕС является вырожденной - существует значительная корреляция между профилями различных аминокислотных остатков. Поэтому было решено провести анализ матрицы РМВЕС с целью исследования ее внутренней размерности. Согласно литературным данным (Kidera et al., 1985; Launay et al., 2007; Wan et al., 2006), скрытая размерность пространства, описывающего аминокислотные остатки, должна быть ниже 20 и согласно указанным источникам должна равняться 10, 11 и 4, соответственно. С помощью метода главных компонент и факторного анализа матрицы РМВЕС было обнаружено, что оптимальным для описания аминокислотных остатков является использование от 4 до 8 компонент. Даже проекция шкалы РМВЕС в двумерное и трехмерное пространство приводит к отчетливой кластеризации аминокислот по их физико-химическим свойствам (Рис. 6). Рис. 6. Кластеризация аминокислотных остатков согласно их физико-химических свойстам (А); двумерная проекция аминокислотных остатков, закодированных с помощью строк матрицы BLOSUM62 (Launay et al., 2007) (Б); отображение аминокислотных остатков, записанных в виде строк матрицы РМВЕС, в двумерное (В) и трехмерное (Г) пространство. Снижение размерности матрицы РМВЕС было выполнено с помощью метода независимых компонент ІСА (Karvanen, Koivunen, 2002).
Таким образом, оригинальное 20-мерное пространство (РМВЕС), описывающее аминокислотные остатки, было преобразовано в ряд пространств меньшей размерности (от 2 до 14 измерений). Шкалирование проводилось с использованием метода независимых компонент (ICA) (Karvanen, Koivunen, 2002) либо с использованием изометрического многомерного шкалирования (isoMDS) (Chen et al., 2008) и метода Саммона (Sammon, 1969), реализованных в библиотеке MASS для R. Все полученные шкалы (наряду с оригинальной матрицей РМВЕС и кодированием пептидов в виде разреженных векторов) были использованы для построения моделей, предсказывающих аффинность связывания нонапептидов с 35 различными аллельными вариантами молекул HLAI класса.
Для создания новых статистических моделей были использованы метод частных наименьших квадратов, реализованный в библиотеке pis для R (Mevik, Wehrens, 2007), и недавно разработанный метод SPLS (sparse partial least squares), сочетающий возможности PLS с алгоритмом отбора значимых признаков, реализованный в библиотеке spls для R (Chung, Keles, 2010). SPLS продемонстрировал большую эффективность по сравнению с обычным методом PLS, особенно в случаях, когда число переменных существенно превышает количество наблюдений и когда данные содержат большое количество незначимых характеристик (Chung, Keles, 2010). В качестве обучающих и тестовых наборов данных использовались результаты количественного определения аффинности связывания олигопептидов с 35 аллельными вариантами молекул HLA-A и HLA-B, извлеченные из базы данных Immune Epitope Database (IEDB). Поскольку большинство известных Т-клеточных эпитопов имеют длину в 9 аминокислотных остатков, для построения моделей нами были использованы данные только для нонапептидов. Мы воспользовались уже готовыми тестовыми и тренировочными наборами, содержащими по 5 тренировочных и тестовых наборов для каждого из 35 аллельных вариантов молекул HLA I класса (Kim et al., 2009). Таким образом, для каждого из 35 аллельных вариантов HLA было построено по 5 моделей. Все модели строились с использованием 10-кратной кросс-валидации. Итоговым результатом предсказания, согласно выбору пользователя, является среднее арифметическое либо среднее геометрическое значений р1С5о, предсказанных с помощью набора из 5 моделей.
Обновление статистических моделей, используемых программой tepredict для предсказания т-клеточных эпитопов
Активное изучение молекулярных механизмов функционирования иммунной системы организма, процессов процессинга и презентации антигенов, активации клеток иммунной системы привело к накоплению большого количества экспериментальных данных о различных аспектах развития иммунного ответа. Были созданы специализированные базы данных, содержащие информацию об известных Т-клеточных эпитопах, о пептидах, связывающихся с различными аллельными вариантами молекул МНС, с комплексом ТАР. Показано, что иммуногенность пептидов определяется аффинностью их связывания с молекулами МНС. К настоящему времени разработано большое количество компьютерных методов предсказания Т-клеточных эпитопов, аффинности связывания пептидов с ТАР, предсказания протеасомного и иммунопротеасомного процессинга антигенов. Однако разработка новых методов предсказания Т-клеточных эпитопов по-прежнему остается одной из наиболее актуальных задач иммуноинформатики, поскольку ни один из современных методов не может быть признан безоговорочно превосходящим прочие. В частности, это подтверждается тем, что наилучшие результаты получаются с использованием консенсусного подхода, объединяющего возможности различных алгоритмов. Кроме того, сложность задачи усугубляется чрезвычайным разнообразием теоретически возможных вариантов олигопептидов ( 209). В связи с этим значительное влияние на качество предсказаний оказывает и выбор метрики взаимного сходства аминокислотных остатков, что было подтверждено, в том числе, результатами данного исследования.
В данной работе были созданы новые статистические регрессионные модели для предсказания аффинности связывания нонамерных пептидов с различными аллельными вариантами молекул МНС I класса человека, поскольку известно, что иммуногенность пептидов определяется стабильностью их комплексов с молекулами МНС. Для построения моделей были использованы такие методы машинного обучения как метод частных наименьших квадратов PLS и его недавняя модификация SPLS, позволяющая проводить выбор признаков и определяющая оптимальное количество скрытых компонент. Сравнение с рядом других известных методов предсказания Т-клеточных эпитопов (ProPredl, SYFPEITHI, SVMHC, SVRMHC, NetMHC, SMMPMBEC и IEDB_recommended) подтвердило высокое качество полученных моделей. Было подтверждено, что использование информации о взаимном сходстве аминокислотных остатков при параметризации олигопептидов позволяет получить более точные предсказательные модели, чем кодирование аминокислотных остатков в виде взаимно ортогональных факторов.
Одной из проблем, связанных с использованием методов машинного обучения является переобучение - ситуация, когда вероятность ошибки обученной модели на объектах, не участвовавших в обучении, существенно превышает среднее значение ошибки, полученное для тренировочного набора данных. Переобучение наблюдается при создании избыточно сложных моделей, поэтому при разработке моделей в данном исследовании особое внимание уделялось снижению размерности описательного пространства (а.к.о., записанные с помощью разреженного вектора или с помощью матрицы РМВЕС, кодируются вектором из 20 координат, в то время как а.к.о., записанные с помощью оригинальной шкалы icalls, -вектором из 11 координат) и выбору оптимальной сложности моделей (количества скрытых компонент). Показано, что SPLS-модели, использующие для параметризации пептидов шкалу icalls, обеспечивают высокое качество предсказаний и, по сравнению с большинством других построенных моделей, отличаются наименьшей сложностью. Таким образом, учитывая результаты, полученные в ходе тестирования, можно заключить, что модели, построенные с использованием шкалы icalls, в наименьшей степени подвержены переобучению.
В настоящее время Т-клеточные эпитопы приобретают все большее значение в качестве инструментов для разработки новых вакцин и средств иммунотерапии. Одним из наиболее многообещающих подходов является конструирование полиэпитопных антигенов, содержащих множественные Т-клеточные эпитопы. Однако, несмотря на большое количество работ, посвященных созданию полиэпитопных конструкций и изучению их иммунологических свойств, к настоящему моменту не было предложено ни одного метода рационального конструирования полиэпитопных Т-клеточных иммуногенов с учетом современных знаний о молекулярных механизмах процессинга и презентации антигенов. В рамках данной работы был разработан алгоритм дизайна полиэптопных Т-клеточных антигенов, теоретически позволяющий увеличить эффективность презентации целевых эпитопов иммунной системе организма за счет подбора наилучших спейсерных последовательностей для каждой пары эпитопов и выбора оптимального взаимного расположения эпитопов в рамках конструкции, использующий сведения о специфичности протеасомного процессинга антигенов и взаимодействия пептидов с ТАР.
С использованием разработанного алгоритма был проведен дизайн полиэпитопного Т-клеточного антигена MELCI-A0201, содержащего множественные Т-клеточные эпитопы ряда антигенов меланомы человека. Изучение ДНК-вакцины (pMELCI-A0201), кодирующей целевой полиэпитопный антиген, в системе индукции Т-клеточного иммунного ответа ex vivo показало, что созданная полиэпитопная конструкция MELCI-А0201 обладает способностью индуцировать Т-клеточный иммунный ответ против антигенов меланомы человека и не уступает по эффективности полноразмерному антигену MART-1, и подтвердило перспективность выбранного направления исследований. Конечно, всесторонняя валидация предложенных методов требует проведения более масштабных и более подробных экспериментальных исследований.
На основе разработанных моделей и алгоритмов было создано программное обеспечение для предсказания Т-клеточных элитопов (TEpredict) и для рационального дизайна полиэпитопных антигенов (PolyCTLDesigner). Программы доступны на интернет-сайте проекта: http://tepredict.sourceforge.net. Разработанные в рамках данного исследования алгоритмы и методы являются универсальными и могут быть использованы для разработки полиэпитопных профилактических и иммунотерапевтических вакцин против различных инфекционных и неопластических заболеваний человека.
Похожие диссертации на Разработка методических подходов к рациональному дизайну полиэпитопных T-клеточных антигенов
-