Содержание к диссертации
Введение
1. Обзор литературы 20
1.1. Протеинкиназы 20
1.1.1. Биология протеинкиназ 20
1.1.2. Особенности протеинкиназ как терапевтических мишеней 23
1.1.3. Основные типы ингибиторов протеинкиназ 28
1.2. Методы компьютерной оценки взаимодействия химических соединений с белками-мишенями, включая протеинкиназы 34
1.2.1. Роль компьютерных методов в разработке лекарственных препаратов 34
1.2.2. Основные категории методов компьютерной оценки взаимодействия химических соединений с белками-мишенями 36
1.2.3. Примеры компьютерной оценки взаимодействия химических соединений с киномом 39
2. Материалы и методы 44
2.1. Краткое описание инструментов, использованных для достижения цели исследования 44
2.1.1. Компьютерная программа PASS 44
2.1.2. База данных ChEMBL 45
2.1.3. СУБД MySQL 46
2.1.4. Языки программирования и библиотеки для научных вычислений 46
2.1.5. Критерии оценки качества прогноза 47
2.2. Протокол извлечения данных из ChEMBL, их фильтрация и гармонизация для формирования различных типов обучающих выборок из надежных данных 51
2.2.1. Фильтрация и стандартизация структур химических соединений 51
2.2.2. Фильтрация и стандартизация данных о биологических активностях 51
2.2.3. Различные стратегии формирования обучающих выборок 55
2.3. Валидация компьютерной оценки взаимодействия низкомолекулярных органических соединений с протеинкиназами 57
2.3.1. Оценка качества классификаторов, обученных на различных типах выборок, основанная на стратифицированной пятикратной кросс-валидации 58
2.3.2. Оценка качества классификаторов, обученных на различных типах выборок в ходе проспективной валидации 60
2.3.3. Расчет критериев качества классификаторов 60
2.3.4. Сравнение результатов прогноза классификаторов, обученных на разных типах выборок 63
2.4. Быстрый поиск химических соединений из ChEMBL по сходству профилей ингибирования киназ 63
3. Результаты и обсуждение 67
3.1. Анализ имеющихся в свободно доступной базе данных ChEMBL сведений о химических соединениях, протестированных на взаимодействие с протеинкиназами 67
3.2. PASS Targets 69
3.2.1. Разработка и валидация PASS Target 69
3.2.2. Применение программы PASS Targets для компьютерной оценки взаимодействия низкомолекулярных органических соединений с киномом человека при решении практических задач 72
3.2.2.1. Применение PASS Targets для виртуального скрининга веществ, обладающих заданным спектром активности 72
3.2.2.2. Применение PASS Targets для поиска белков-мишеней, взаимодействие с которыми может индуцировать вентрикулярную тахиаритмию 73
3.3. Сравнение различных подходов к обучению программы PASS для проведения компьютерной оценки взаимодействия низкомолекулярных органических соединений с киномом человека 74
3.3.1. Анализ обучающих выборок, сформированных для сравнения различных стратегий обучения 74
3.3.2. Валидация и сравнение качества классификаторов, построенных на различных типах обучающих выборок 81
3.3.3. Влияние несбалансированности тестовой выборки на критерии оценки качества классификации 82
3.3.4. Сравнение качества классификаций, полученных с использованием различных типов обучающих выборок при стратифицированной пятикратной кросс-валидации и проспективной валидации 83
3.3.5. Область применимости классификаторов, построенных на различных типах выборок 86
3.3.5. Сравнение степеней обогащения, достигнутых с использованием классификаторов, построенных на различных типах выборок 88
3.3.6. Возможное объяснение результатов сравнения качества классификаторов, построенных на различных типах выборок 92
3.3.7. Обсуждение результатов сравнения качества классификаторов 96
3.4. Веб-приложение для компьютерной оценки взаимодействия химических соединений с киномом человека 97
4. Заключение 103
5. Выводы 109
6. Список литературы 111
7. Список иллюстративного материала 125
8. Приложения 130
- Основные типы ингибиторов протеинкиназ
- Быстрый поиск химических соединений из ChEMBL по сходству профилей ингибирования киназ
- Анализ обучающих выборок, сформированных для сравнения различных стратегий обучения
- Веб-приложение для компьютерной оценки взаимодействия химических соединений с киномом человека
Введение к работе
Актуальность проблемы. Протеинкиназы (ПК) образуют
одно из самых крупных семейств ферментов в организме человека
(Hanks, 2003), представители которого вовлечены в регуляцию
практически всех процессов, протекающих в живой клетке (Cheng et
al., 2011). Нарушение активности ПК препятствует нормальному
протеканию клеточных процессов и может приводить к развитию
целого ряда заболеваний (Reddy et al., 2003; Choura and Reba, 2011),
включая онкологические, иммунные, метаболические,
нейродегенеративные, а также заболевания сердечно-сосудистой, и
дыхательной систем (см. Kinase-Disease Associations: goo.gl/EF71BU).
В связи с этим, научный и практический интерес представляет задача
поиска способов модуляции активности ПК для последующего
применения в биомедицинских исследованиях и для терапии
заболеваний человека. Наиболее распространенным подходом к этой
проблеме является ингибирование ПК с помощью низкомолекулярных
органических соединений, препятствующих связыванию
протеинкиназой молекулы ко-субстрата, АТФ (Wu et al., 2015).
Высокий интерес к протеинкиназам как к терапевтическим мишеням привел к тому, что на текущий момент (июнь 2018 года) к клиническому применению разрешено уже 40 их ингибиторов, причем большая часть из них была выведена на рынок за последние несколько лет (Roskoski, 2017).
Однако, наличие определенных структурных и
функциональных особенностей ПК затрудняет разработку новых более эффективных и безопасных препаратов этого класса и ограничивает область применения существующих:
Устойчивость сетевой сигнализации, которая обуславливает потребность в селективном ингибировании нескольких целевых ПК лекарственными соединениями для нормализации клеточных процессов.
Значительная степень сходства АТФ-связывающих участков различных представителей кинома, которая предопределяет взаимодействие ингибиторов с широким спектром ПК, включая нежелательные мишени, и, соответственно, высокую вероятность развития серьезных побочных эффектов при их применении.
Указанные особенности ПК приводят к тому, что
систематический поиск их ингибиторов, обладающих приемлемым балансом между безопасностью и эффективностью, требует
проведения оценки активности химических соединений в отношении
множества ПК, в идеале – в отношении всего кинома. Такая
экспериментальная оценка является крайне затратной задачей с
учетом огромного количества уже полученных и потенциально
синтезируемых органических соединений, а также наличия в киноме
человека более пятисот различных ПК. В связи с этим, перспективным
является применение компьютерных методов, позволяющих
предварительно оценить профили биологической активности
множества химических соединений и установить приоритеты экспериментального тестирования эффективности и безопасности соединений-кандидатов.
Из-за повышенного интереса к поиску новых ингибиторов проблема компьютерной оценки взаимодействия химических соединений с ПК человека активно изучается (Zheng et al., 2014; Santos-Garcia et al., 2016; Li et al., 2017). Однако, основная масса исследований, посвященных компьютерной оценке взаимодействия химических соединений с ПК, направлена на поиск химических соединений, ингибирующих отдельные ПК, а не на оценку их профиля взаимодействия с киномом. Известные нам работы по компьютерной оценке взаимодействия химических соединений со множеством ПК (Martin et al., 2011; Merget et al., 2017; Bosc et al., 2017), как правило, опираются на данные, принадлежащие фармацевтическим компаниям, что затрудняет их практическое использование широким научным сообществом. Кроме того, проблема выбора оптимальной для поиска ингибиторов стратегии построения моделей взаимосвязей «структура-активность» ((Q)SAR моделей), а также гетерогенность публично-доступных данных об ингибиторах ПК, связанная с многообразием типов их связывания c мишенью и различиями в ингибировании нормальных и мутантных ПК, не рассматривались систематически в известных нам исследованиях.
Компьютерная программа PASS, разработанная и
поддерживаемая коллективом лаборатории структурно-
функционального конструирования лекарств отдела биоинформатики ИБМХ, предназначена для прогнозирования спектра биологических активностей химических соединений, что делает ее удобным инструментом для компьютерной оценки взаимодействия с киномом человека. Однако, проведенный нами анализ показал, что среди 4366 видов активности, прогнозируемых программой PASS (версия 2011, актуальная на момент начала выполнения работы), лишь 243 относятся к различным ПК (из которых 187 представляют собой
отдельные белки, 86 из которых – ПК человека) что составляет сравнительно малую часть кинома, покрывая 37 из 95 семейств, 23 из 81 подсемейства ПК человека; хотя и включает представителей всех его основных групп (TK, CMGC, AGC, CAMK, Other, STE, TKL, Atypical, CK1). Соответственно, возможности компьютерной оценки взаимодействия низкомолекулярных химических соединений с киномом человека с использованием программы PASS могут и должны быть существенно расширены в соответствии с современным уровнем знаний.
Целью диссертационной работы является разработка подхода к прогнозированию взаимодействия низкомолекулярных органических соединений с киномом человека на основе оценки взаимосвязей «структура-активность» и исследование возможностей его применения для решения практических задач.
Для достижения поставленной цели были сформулированы следующие задачи:
-
Провести анализ сведений о химических соединениях, протестированных на взаимодействие с протеинкиназами в базе данных ChEMBL, разработать протокол обработки данных и создать максимально полные и качественные обучающие выборки для построения классификационных моделей взаимосвязи «структура-активность» для оценки взаимодействия низкомолекулярных органических соединений с киномом человека.
-
Создать программу PASS Targets для оценки вероятности взаимодействия химических соединений с различными молекулярными мишенями, сопоставить точность прогноза взаимодействия с протеинкиназами и другими белками и апробировать программу применительно к проблемам поиска новых биологически активных соединений и новых молекулярных мишеней.
-
Оценить влияние, которое оказывает на качество компьютерной оценки взаимодействия химических соединений с киномом человека использование различных стратегий формирования обучающих выборок, составленных на основе доступных экспериментальных данных об ингибировании протеинкиназ (с использованием (1) только истинно положительных и истинно отрицательных примеров для каждой отдельной протеинкиназы, (2) общей выборки из активных соединений, (3) общей выборки из активных и неактивных соединений).
-
Создать свободно-доступный веб-сервис для компьютерной оценки взаимодействия лекарственных соединений с киномом человека.
Научная новизна работы.
Впервые разработан и реализован в виде веб-сервиса и
локальной версии компьютерной программы PASS Targets подход к
компьютерной оценке взаимодействия низкомолекулярных
органических соединений с представителями всех основных ветвей
кинома человека. Этот подход учитывает структурно-
функциональные особенности различных ПК и плейотропность
действия ингибиторов. С использованием разработанного подхода
выявлены новые химические соединения, обладающие избирательной
цитотоксичностью по отношению к опухолевым клеткам;
установлены новые молекулярные мишени, ассоциированные с
проявлением такого побочного эффекта фармакологических веществ,
как вентрикулярная тахиаритмия; предсказаны наиболее вероятные
молекулярные мишени известных ингибиторов ПК. Впервые
количество новых MNA-дескрипторов было применено для оценки
области применимости классификационных моделей, построенных с
использованием различных типов обучающих выборок. Разработан
свободно-доступный веб-сервис KinScreen, позволяющий
прогнозировать ингибирование лекарственно-подобными
соединениями 301 ПК человека, а также идентифицировать в базе данных ChEMBL соединения с наиболее близкими прогнозируемыми профилями ингибирования ПК.
Теоретическая и практическая значимость работы.
Разработанный подход позволяет отбирать на основе
компьютерного прогноза наиболее вероятные «молекулы-кандидаты»,
ингибирующие определенные ПК; устанавливать приоритеты
экспериментального тестирования конкретных соединений на наличие
взаимодействия с ПК, что, в конечном счете, призвано способствовать
разработке более безопасных и эффективных лекарственных
препаратов. Проведенные эксперименты по сравнению стратегий
формирования обучающих выборок для построения зависимостей
«структура-активность» на примере ингибиторов ПК позволили
выявить преимущества и недостатки различных подходов к обучению,
которые могут быть экстраполированы и на другие классы
молекулярных мишеней для достижения успеха в компьютерном
поиске химических соединений с заданной биологической
активностью. Реализацией свободно доступных веб-ресурсов PASS Targets и KinScreen обеспечена возможность их использования широкой научной общественностью для компьютерной оценки
взаимодействия лекарственно-подобных химических соединений с большинством представителей кинома человека.
Положения, выносимые на защиту:
-
Количественные экспериментальные данные из базы данных (БД) ChEMBL позволяют сформировать представительную обучающую выборку ингибиторов протеинкиназ человека. Таким образом, данные из БД ChEMBL могут быть использованы для проведения компьютерной оценки взаимодействия низкомолекулярных органических соединений с киномом человека.
-
Созданная компьютерная программа PASS Targets с высокой точностью прогнозирует вероятность взаимодействия лекарственно-подобных органических соединений с представительным подмножеством протеинкиназ человека и другими белками-мишенями, что позволяет использовать ее для решения практических задач, таких как: виртуальный скрининг веществ, обладающих требуемыми профилями биологической активности, установление нежелательных молекулярных мишеней.
-
При наличии достаточного количества данных оптимальной является стратегия построения классификаторов, основанная на использовании обучающих выборок, содержащих результаты экспериментального тестирования для отдельных протеинкиназ. Использование смешанных выборок, содержащих условно отрицательные примеры, позволяет существенно снизить требования к количеству доступных данных и расширить спектр протеинкиназ, в отношении которых возможна компьютерная оценка.
-
Разработанный веб-ресурс KinScreen позволяет с высокой точностью проводить компьютерное предсказание ингибирования низкомолекулярными органическими соединениями более 300 протеинкиназ, охватывающих все основные ветви кинома человека, и предоставляет пользователю информацию об известных химических соединениях с близкими профилями биологической активности из БД ChEMBL.
Личный вклад автора.
Автор непосредственно участвовал в постановке и реализации задач, решаемых в рамках диссертационной работы. Результаты, изложенные в диссертации, получены либо лично автором, либо при его непосредственном участии. Диссертант участвовал в подготовке всех публикаций по теме диссертации и являлся основным
исполнителем при создании компьютерной программы PASS Targets.. Автором были написаны скрипты для извлечения и анализа данных из ChEMBL с целью создания обучающих выборок, статистической обработки результатов валидации построенных классификаторов, а также реализованы свободно доступные веб-сервисы PASS Targets и KinScreen.
Степень достоверности и апробация работы.
Достоверность полученных результатов обеспечена
применением для извлечения, обработки и оценки данных из
публично-доступных источников, методов, которые соответствуют
современным научным критериям. Точность и предсказательная
способность полученных зависимостей «структура-активность»
оценены с применением скользящего контроля с исключением по
одному, пятикратной кросс-валидации и валидации с использованием
экспериментальных данных, полученных после построения
классификаторов (проспективная валидация).
Выводы, изложенные в диссертации, подтверждены
публикациями и следуют из результатов проведенных автором
исследований. Основные положения опубликованы в рецензируемых
научных журналах, доложены и обсуждены на российских и
международных научных конференциях, включая XX, XXI и XXII
российский национальный конгресс «Человек и лекарство», Москва;
VIII и IX международный конгресс «Биотехнологии: состояние и
перспективы развития», Москва; 20-ый и 21-ый Европейский
симпозиум по количественной связи «структура-активность»
(European Symposium on Quantitative Structure-Activity Relationship), Санкт-Петербург, Верона.
Публикации по теме диссертации.
По материалам диссертации опубликовано 26 научных работ, в том числе: 9 статей в рецензируемых научных журналах; 2 свидетельства Роспатента о государственной регистрации программ для ЭВМ (PASS Targets и CLC Pred); 15 работ в сборниках материалов научных конференций.
Объем и структура диссертации.
Диссертация изложена на 146 машинописных страницах и содержит 22 рисунка и 3 таблицы. Диссертационная работа включает в себя список сокращений, словарь терминов, введение, обзор
литературы, описание материалов и методов исследований, описание и обсуждение результатов, заключение, выводы, список литературы, список иллюстративного материала, приложения.
Основные типы ингибиторов протеинкиназ
История применения ингибиторов протеинкиназ в клинической практике началась в 1999 году с трастузумаба, гуманизированного моноклонального антитела к рецептору HER2, который был одобрен FDA для терапии HER2-положительного рака молочной железы [69]. По данным базы данных ChEMBL [70], содержащей информацию о биологически активных соединениях и их мишенях, к настоящему времени FDA одобрило еще семь препаратов моноклональных антител, которые связываются с протеинкиназами. В их числе: одно моноклональное антитело (МА) против рецепторной тирозинкиназы VEGFR-2 (рамуцирумаб) [71]; одно МА – против рецептора HER2 (пертузумаб) [72]; одно МА – против рецептора PDGFR- (оларатумаб) [73]; три МА против рецептора HER1 (цетуксимаб, панитумумаб, нецитумумаб) [74–76]; а также комбинированный препарат, состоящий из ранее одобренного антитела (трастузумаб) и низкомолекулярного ингибитора тубулина (эмтансин), – трастузумаб эмтансин [77]. Детальное описание механизмов действия антител, взаимодействующих с протеинкиназами, выходит за рамки данного обзора. Однако, стоит отметить, что все эти препараты сконструированы для связывания с рецепторными протеинкиназами, а точнее с их экстрацеллюлярными лиганд-связывающими доменами. Поэтому, хотя данный тип ингибиторов киназ имеет неоспоримое достоинство – высокую селективность, характерную для всех моноклональных антител; их эффективность полностью утрачивается при наличии активирующих киназную активность мутаций в генах мишеней [78] (Рисунок 1) и/или перестроек сигнальных путей в клетке [79].
Низкомолекулярные органические соединения долгое время составляют основной пул терапевтических агентов, доступных человечеству. Большая часть известных ингибиторов протеинкиназ также имеет низкомолекулярную природу. Все многообразие низкомолекулярных ингибиторов киназ можно разделить на несколько типов, согласно характерным для них областям связывания и типу ингибирования (обратимое или необратимое; конкурентное или неконкурентное) [80].
Низкомолекулярные ингибиторы киназ, тип I. Ингибиторы этого типа преимущественно связываются с активированными киназами, которые находятся в так называемой DFG-in конформации, работают на конкурентной с АТФ основе, оказывают обратимый эффект на активность киназы, занимают тот участок АТФ-связывающего кармана, который в норме выполняет адениновое кольцо АТФ, и удерживаются там в основном благодаря образованию связей с шарнирным участком. У данных ингибиторов селективность наименее выражена, так как их связывание с мишенью происходит в области, геометрия которой консервативна из-за налагаемых катализом ограничений на изменчивость [8,81]. Однако, рядом с шарнирным участком располагается так называемый привратник («gatekeeper» в англоязычной научной литературе), который как правило закрывает собой доступ в дополнительный гидрофобный карман в каталитической полости киназы. Привратник обычно представлен аминокислотным остатком с объемными заместителями, но, примерно в 5 процентах киназ, заместители у этого остатка занимают объем, недостаточный, чтобы перекрыть доступ в задний карман. Соответственно, ингибитор первого типа, связавшись с одной из киназ с компактным привратником, способен использовать задний гидрофобный карман для более прочного связывания с мишенью. При этом связывание с протеинкиназами, обладающими крупными привратниками, а также с протеинкиназами, задний гидрофобный карман которых не соответствует геометрии ингибитора, будет ухудшаться. Таким образом, в отдельных случаях селективность ингибиторов первого типа может быть выше ожидаемой в среднем [54]. Примером высокоселективного ингибитора киназ типа I, использующего особенности привратника и заднего гидрофобного кармана, может служить Скепинон-Л, высокоселективный ингибитор близкородственных киназ p38 MAPK ( и ). Это химическое соединение характеризуется величиной IC50 в отношении целевых протеинкиназ порядка 2,5 нМ, при этом в концентрации 1 мкМ оно полностью ингибирует активность p38 и p38, но также проявляет ингибирование в диапазоне от 70 до 50 процентов в отношении всего лишь трех других протеинкиназ (JNK3, SLK, CAMK2D) из 330 киназ на которых было протестировано [82].
Низкомолекулярные ингибиторы, тип II. Данные ингибиторы оказывают свое обратимое неконкурентное действие на неактивированные протеинкиназы, которые находятся в конформации DFG-out. DFG-out конформации различных киназ характеризуются бОльшим разнообразием, чем DFG-in конформации, которые находятся под строгими ограничениями требований катализа; связывающая лиганды полость киназ в этой конформации шире и находится в динамике, предоставляя тем самым лучшие и более разнообразные условия доступа к потенциальным участкам связывания. Подобные характеристики целевой конформации обусловили повышенный интерес к ингибиторам второго типа, из-за наличия возможности для них представлять собой группу структурно разнообразных химических соединений, обладающих более выраженной селективностью действия, чем ингибиторы типа I. Положительным был также тот факт, что первый ингибитор, для которого был показан данный тип действия, иматиниб, оказался и первым из низкомолекулярных ингибиторов киназ, одобренных к применению в клинике [83]. Несмотря на это, к настоящему времени экспериментально показано, что селективность ингибиторов киназ типа II, как и ингибиторов типа I, ограничена. Аналогичным оказался и способ для повышения селективности – использование особенностей гидрофобного кармана и привратника [53,54]. Также в ряде работ показано, что многие ингибиторы по своим особенностям связывания соответствуют как типу I, так и типу II одновременно, то есть способны связываться и с активированными, и с неактивированными киназами в той или иной степени [83].
Низкомолекулярные ингибиторы, тип III. Ингибиторы третьего типа связываются с аллостерическим сайтом киназ, то есть с участком, который не вовлечен напрямую в каталитическую активность киназы, но при этом участвует в ее регуляции. Данный тип ингибиторов гетерогенен, он включает в себя ингибиторы, как связывающиеся с аллостерическими сайтами вблизи АТФ-связывающего участка, так и с сайтами, удаленными от него на значительное расстояние, в том числе с сайтами, находящимися не на киназном домене [84]. Аллостерические ингибиторы имеют много преимуществ перед прочими типами ингибиторов:
Аллостерические сайты протеинкиназ более разнообразны, чем каталитические. Более того, их набор может существенно меняться от киназы к киназе; что предоставляет более широкие возможности для селективного ингибирования.
Поскольку ингибиторы киназ типа III не конкурируют за связывание с АТФ, концентрация которого в клетках в норме достаточно велика, их сродство к киназе может быть значительно ниже, чем у ингибиторов конкурентных типов при сопоставимой эффективности.
В то же время, природа аллостерических сайтов определяет сложности поиска лигандов, которые могут связываться с ними. По сравнению с каталитическими, аллостерические сайты как правило оказываются менее глубокими, что ограничивает возможности для связывания и удержания ингибитора, а некоторые аллостерические сайты появляются на молекулах белка только в строго определенном функциональном состоянии, и нередко их появление индуцируется непосредственным контактом с лигандом. Все эти особенности приводят к тому, что целенаправленный поиск аллостерических ингибиторов требует применения специфических тест-систем, которые в настоящее время для большинства киназ не разработаны. Поэтому известные на текущий момент аллостерические ингибиторы были найдены случайным образом в ходе скрининговых программ и лишь два ингибитора этого типа, траметиниб и кобиметиниб, одобрены к применению в клинике по состоянию на начало 2017 года [84,85].
Быстрый поиск химических соединений из ChEMBL по сходству профилей ингибирования киназ
При выполнении последней задачи исследования было принято решение не только предоставлять пользователям разработанного веб-приложения результаты прогноза ингибирования протеинкиназ для введенной структуры химического соединения, но и идентификаторы соединений из базы данных ChEMBL, характеризующихся сходными спрогнозированными профилями ингибирования киназ.
Для этого надо было предварительно выполнить прогноз ингибирования киназ для всех соединений из ChEMBL 21-ой версии, которые удовлетворяли требованиям PASS, и реализовать возможность быстрого поиска в многомерном пространстве спрогнозированных активностей.
Прогноз ингибирования трехсот киназ человека был выполнен для более чем одного миллиона структур химических соединений; таким образом, объем данных, в котором необходимо было проводить поиск, оказался слишком большим для быстрого сравнения спрогнозированного профиля ингибирования киназ с профилями всех соединений из ChEMBL.
В связи с этим для осуществления поиска по сходству спрогнозированных профилей был выбран метод, основанный на локально-чувствительном хешировании (Locality-Sensitive Hashing (LSH))[149], которое часто применяется для упрощения работы с многочисленными объектами в многомерном пространстве признаков. LSH подразумевает использование хеш-функций, для которых характерны коллизии при применении к похожим объектам (результат применения хеш-функции к сходным объектам одинаков). Хеш-функции используются для снижения размерности как объекта запроса, так и объектов сравнения; при этом, применение выбранной хеш-функции к объекту запроса с высокой вероятностью ведет к коллизии с некоторым количеством объектов сравнения, которые можно рассматривать в качестве ближайших соседей объекта запроса и производить точный расчет сходства объекта запроса только с ними, а не со всем множеством объектов. Таким образом, задача поиска по сходству значительно упрощается.
Вероятность того, что в результате запроса не будет найден его ближайший сосед, не является нулевой, поскольку реально используемые хеш-функции не являются совершенными в этом плане. Поэтому методы поиска ближайших соседей (наиболее похожих объектов) с использованием LSH получили название приближенных.
Пример ограниченной области поиска, которая может быть получена с использованием LSH, приведен на Рисунке 4.
В данной работе была использована реализация метода приближенного поиска ближайших соседей, известного под названием лес LSH (LSH Forest) [150], из библиотеки scikit-learn. В качестве семейства хеш-функций в этом инструменте используются случайные проекции, которые аппроксимируют косинусное расстояние между объектами выборки. Косинусное расстояние выражается как 1 -косинусное сходство. Формула для расчета косинусного сходства приведен в Формуле 3, где п - длина вектора признаков, АІ и ВІ - значения i-тых элементов векторов объектов, сходство между которыми вычисляется.
Лес LSH позволил проводить поиск структур химических соединений по спрогнозированному профилю активностей в ChEMBL за приемлемое время, составляющее приблизительно две с половиной минуты.
Анализ обучающих выборок, сформированных для сравнения различных стратегий обучения
При формировании различных типов обучающих выборок для выполнения третьей задачи исследования были использованы некоторые ограничения, чтобы обеспечить адекватные условия для последующего сравнения стратегий обучения. Также эти ограничения позволили сосредоточиться на той части доступных данных об ингибиторах киназ, которая является наиболее достоверной и отражает природу взаимодействия большинства ингибиторов с киназами:
При формировании выборок, круг мишеней был ограничен киназами, которые функционируют в виде отдельных белков, белковые комплексы рассмотрены не были.
При формировании выборок рассматривались только киназы человека и химические соединения, протестированные в отношении их.
В выборки были включены только киназы, для которых после выполнения всех процедур контроля качества данных оставалось не менее ста активных и ста неактивных соединений.
Обозначенные дополнительные ограничения позволили проводить сравнение между различными подходами к формированию обучающих выборок, используя величины критериев качества, рассчитанные на достаточном объеме данных, а также исключить из исследования мишени, характеризующиеся высокой вероятностью значительного пересечения профилей ингибиторов (близкие гомологи киназ человека из родственных организмов) и наличием дополнительных, отличных от АТФ-связывающего участка, сайтов взаимодействия с низкомолекулярными соединениями (белковые комплексы).
Таким образом, условия сравнения были приближены к тому, чтобы отражать ситуацию с применением различных типов выборок к проблеме компьютерной оценки взаимодействия низкомолекулярных соединений с киномом человека, а также общность киназ на уровне их структурной организации в пределах одного организма.
Для формирования выборок различных типов из базы данных ChEMBL 20-ой версии изначально были извлечены 458 863 записи о результатах тестирования химических соединений в отношении киназ. После проведения всех процедур по повышению качества и однородности данных, в выборки были включены 173 275 записей. Всего, 55 162 низкомолекулярных органических соединения были охарактеризованы как активные, в концентрации 1 мкМ и менее, ингибиторы определенных киназ (62 309 записей) или неактивные в выбранном диапазоне концентраций соединения (110 966 записей). При этом, для одного соединения могли иметься данные об его активности в отношении нескольких киназ.
Представленные в выборке 152 мишени относятся к различным семействам киназ человека. Распределение киназ по филогенетическому дереву приведено на Рисунке 6. Список киназ с количеством протестированных активных и неактивных соединений представлен в Приложении, Таблица П1.
Из Рисунка 6 следует, что, хотя составленные выборки не охватывают весь кином человека, все его основные семейства в них представлены, включая атипичные и другие киназы.
Около 50 % химических соединений, содержащихся в выборках, не проявляют выраженной активности в отношении ни одной из протестированных киназ; 35 % проявили ингибирование лишь одной киназы и около 15 %, - двух и более киназ. Полное распределение количества химических соединений по количествам киназ, в отношении которых они показали выраженную ингибирующую активность приведено на Рисунке 7.
Рисунок 7 иллюстрирует хорошо известный и подробно рассмотренный в литературном обзоре факт, что многие химические соединения ингибируют не одну и не две киназы, а целый набор этих ферментов вследствие их структурной общности, наличия АТФ-связывающего участка, с которым и взаимодействует большинство известных ингибиторов киназ.
Стоит отметить, что далеко не все присутствующие в выборках химические соединения были протестированы в отношении всех 152 киназ. Из этого следует, что отображенные на Рисунке 7 данные, вероятно недооценивают реальное, но недоступное научному сообществу, распределение. Так, 70 % химических соединений в описываемых выборках были протестированы в отношении ингибирования одной киназы, и только 0,01 % соединений были протестированы в отношении 76 киназ и более.
Рисунок 8 иллюстрирует результаты поиска зависимости между количеством киназ, на ингибирование которых были протестированы химические соединения, и количеством киназ, в отношении которых они оказались активны.
Из Рисунка 8А следует, что, в целом по выборке, наблюдается слабая корреляция между количеством киназ, в отношении которых химические соединения проявляют ингибирующую активность, и количеством киназ, в отношении которых они были протестированы. Но, при этом, распределение точек на графике существенно меняется от первой ко второй его половине по оси абсцисс. При отдельном рассмотрении областей графика, характеризующих соединения, протестированные в отношении до 80-ти киназ включительно и в отношении более 80-ти киназ, коэффициенты детерминации для них разительно отличаются (Рисунок 8А, 8В).
Исходя из этого, можно предположить наличие эффекта насыщения профиля ингибирования киназ для низкомолекулярных органических соединений, наступающего после их тестирования в отношении приблизительно 80-ти киназ. Конечно, к обнаруженному порогу следует относиться с большой осторожностью, поскольку:
Были использованы данные, характеризующие взаимодействие низкомолекулярных органических соединений лишь со 152-мя протеинкиназами из 518-ти, составляющих кином.
Данные, с использованием которых был обнаружен порог насыщения взяты из экспериментов, проведенных в «реальном мире» со всеми присущими ему техническими ограничениями и материальными соображениями, а не получены в однородной специально сконструированной модельной системе. Из этого следует, что выбор соединений для тестирования в отношении множества киназ был неслучаен; вероятно, что для масштабных экспериментов ( 80 киназ, на примере исследованной выборки) отбирались самые многообещающие, согласно неизвестным нам характеристикам, соединения.
Плотность точек на графике стремительно уменьшается с увеличением значений, отложенных по оси абсцисс; то есть количество примеров химических соединений, протестированных в отношении множества киназ, значительно меньше, чем количество соединений, протестированных в отношении единичных киназ, что отражено на Рисунке 7.
Веб-приложение для компьютерной оценки взаимодействия химических соединений с киномом человека
Для достижения цели исследования, в ходе выполнения задачи 5 нами было разработано веб-приложение, свободно доступное для использования в сети Интернет (www.way2drug.com/KinScreen). Разработанное приложение позволяет пользователям вводить структуры химических соединений с помощью графического редактора MarvinJS, а также в текстовой форме в форматах MOL, InChI или SMILES (Рисунок 19).
Для структуры введенного химического соединения выполняется прогноз наличия у него в концентрации 10 мкМ значительной ингибирующей активности в отношении 301 киназы человека. Прогноз выполняется с использованием программы PASS, обученной на in vitro данных об ингибировании киназ человека низкомолекулярными химическими соединениями. Данные были извлечены из 21-ой версии базы данных ChEMBL, при обучении была использована стратегия АН-В. Средняя точность прогноза, оцененная как AUC, рассчитанная по методу скользящего контроля с исключением по одному; составила около 0,82. Распределение киназ, доступных для компьютерной оценки взаимодействия с низкомолекулярными органическими соединениями с помощью разработанного веб-ресурса, показано на Рисунке 20. Список киназ с количеством активных соединений и точностью прогноза, рассчитанной с использованием процедуры скользящего контроля с исключением по одному, представлен в Приложении, Таблица П3.
Форма выдачи результатов компьютерной оценки ингибирующей активности низкомолекулярных химических соединений пользователям приведена на Рисунке 21 на примере двух одобренных к применению в клинической практике ингибиторов киназ, сунитиниба и кобиметиниба, которые отличаются степенью своей селективности как согласно данным ChEMBL, так и результатам прогноза KinScreen.
Основные результаты прогноза (Рисунок 21Г) предоставляются пользователям в виде таблицы, содержащей идентификаторы киназ в базе данных ChEMBL, которые снабжены ссылкой на запись мишени в ChEMBL; и степень уверенности в наличии у соединения активности, которая выражается как разность спрогнозированных вероятностей для данного соединения принадлежать к активным и неактивным в отношении этой мишени соединениям. В таблицу включаются только те киназы, для которых степень уверенности в наличии активности у соединения больше нуля. По умолчанию записи в таблице ранжированы в порядке убывания вероятности наличия активности, реализована возможность выполнять текстовый поиск по идентификатору мишени.
Также, пользователям выводится изображение дерева киназ (Рисунок 21А), на котором отмечены вероятные мишени соединения и структурная формула отправленного на прогноз соединения. Изображения выводятся в векторном формате, что призвано обеспечить их использование с разным разрешением без потери качества (например, при выводе на мониторы с различными характеристиками).
Помимо собственно результатов прогноза, пользователям предоставляются изображение химической структуры, для которой был выполнен прогноз (Рисунок 21Б), ссылки на записи пяти соединений из базы данных ChEMBL (Рисунок 21В), для которых спрогнозированный профиль ингибирования киназ наиболее похож на профиль соединения, структура которого была введена пользователем. Поиск соединений осуществляется среди 1 420 043 химических соединений, структуры которых были предварительно извлечены из ChEMBL 21-ой версии. Процедура поиска занимает в среднем около двух с половиной минут, это время существенно превышает время выполнения прогноза, поэтому результаты поиска выдаются пользователю после основных, но без перезагрузки страницы.
Информация о соединениях, обладающих сходными с объектом запроса спрогнозированными активностями, может существенно дополнять результаты прогноза:
Схожие профили, как правило, прогнозируются для структурно похожих химических соединений, поэтому пользователь получает возможность узнать об экспериментально установленных активностях химических соединений с близкими к введенной для выполнения прогноза структурами.
В некоторых случаях пользователь может получить данные об активностях химических соединений, которые могут существенно отличаться от введенной структуры и, благодаря этому, оценить перспективы расширения поля проводимых исследований химико-биологического пространства.
Таким образом, в результате выполнения последней задачи исследования с использованием нами данных, знаний и навыков был создан веб-ресурс для компьютерной оценки взаимодействия низкомолекулярных органических соединений с киномом человека, который доступен для использования широким научным сообществом.