Содержание к диссертации
Введение
Глава 1. Обзор подходов и методов 8
1.1 Молекулярная динамика и анализ траекторий молекулярной динамики 8
1.2 Программы для работы в области молекулярной динамики 16
Глава 2. Создание Анализатора траекторий 27
2.1 Назначение 27
2.2 Принцип работы 28
2.3 Краткое описание возможностей 30
2.3 Работа по увеличению быстродействия 37
2.4 Расширенные динамические контактные карты и ленты контактов 45
2.5 Коэффициент вариации молекулярной динамики. Распознавание процессов на исследуемой системе без предварительных сведений 58
2.6 Квазигармонический метод 64
2.7 Сценарии анализа траекторий молекулярной динамики. Платформа TAMD 72
Глава 3. Механические свойства кадгерина 75
3.1 Введение 75
3.2 Постановка расчетов 77
3.3 Проведение расчетов 81
3.4 Результаты 87
Глава 4. Исследование механической стабильности лево- и правозакрученных альфа-спиральных белков 89
4.1 Введение 89
4.2 Постановка расчетов 91
4.3 Проведение расчетов 97
4.4 Результаты 106
Заключение 107
Выводы 110
Список литературы
- Программы для работы в области молекулярной динамики
- Коэффициент вариации молекулярной динамики. Распознавание процессов на исследуемой системе без предварительных сведений
- Проведение расчетов
- Проведение расчетов
Введение к работе
Актуальность темы.
Методом моделирования молекулярной динамики (МД) пользуются во многих научно-исследовательских лабораториях. После проведения МД-эксперимента ставится задача анализа полученных данных. Возможны случаи, когда необходимо ответить на конкретные вопросы по эксперименту, а также когда возникает потребность описать эксперимент в целом, заострив внимание на структурные перестроения в ходе эксперимента.
Как правило, при анализе траекторий многие исследователи пишут собственные несложные программы для расчета простых характеристик. Вместе с тем, сложные алгоритмы работы с траекториями заложены в такие объемные пакеты как VMD и GROMACS, на изучение которых требуется до полугода рабочего времени.
Разработанная программа TAMD (Trajectory Analyzer of Molecular Dynamics, далее по тексту Анализатор) сочетает в себе: интуитивный графический пользовательский интерфейс, новые характеристики, направленные на быстрый анализ траектории в целом, а также является платформой для написания новых характеристик на траекториях и управляемой программой-платформой с интерпретатором скриптового языка для автоматизации рутинных действий.
В целях повышения быстродействия для анализа МД-систем из большого количества атомов, реализация Анализатора траекторий использует современные технологии, направленные на ускорение обработки информации, такие как технология вывода трехмерной графики OpenGL, параллельное программирование, в том числе массивно-параллельное (технология CUDA).
Некоторые белки в клетке испытывают механические деформации при таких биологических процессах как межклеточная адгезия, сокращение мышц, перенос белков через мембрану. Для понимания молекулярной природы механической стабильности белков необходимо провести большое количество МД экспериментов для исследования зависимости механических свойств белков от различных параметров. Исследование этого вопроса представляет практический интерес для конструирования биоматериалов с повышенной механической стабильностью.
При помощи Анализатора в данной работе проведен анализ механического разворачивания по траекториям МД белка межклеточной адгезии кадгерина, а также влияние хиральности восьми альфа-спиральных белков на их механические свойства.
Цель и задачи исследования.
Целью данной работы является разработка новых методов и подходов к анализу траекторий молекулярной динамики биомолекулярных систем и их
апробация на конкретных молекулярных комплексах. Для этого решаются следующие задачи:
-
Разработка Анализатора траекторий молекулярной динамики как программного средства для анализа МД-траекторий с одной стороны, так и платформы для создания инструментария по анализу траекторий с другой. Создание новых алгоритмов исследования МД траекторий биомолекулярных систем. Обеспечение работы с молекулярными системами, содержащими до 100 000 атомов.
-
Получение МД-траекторий для различных гидратированных белков и решение следующих задач:
-
Сравнение механических характеристик белка клеточной адгезии С-кадгерина (C-Cadherin) в зависимости от присутствия ионов различного типа.
-
Исследование влияния хиральности альфа-спиральных белков на их механические свойства.
Научная новизна работы.
Созданный программный комплекс для анализа МД-траекторий позволяет в интерактивном режиме рассчитывать конфигурационные и динамические характеристики молекулярных систем. В том числе, получение расширенных динамических контактных карт и лент контактов, нормальных мод, коэффициентов вариации.
Впервые проведенный методом молекулярной динамики анализ механических характеристик белка межклеточного взаимодействия С-кадгерина показал, что С-кадгерин с ионами Mg2+ имеет механические свойства схожие со свойствами белка с ионами Са2+.
Анализ последовательности разворачивания восьми альфа-спиральных белков по МД-экспериментам показал, что правозакрученные домены обладают большей механической стабильностью, чем левозакрученные.
Практическая значимость работы.
Анализатор траекторий является необходимым средством при проведении МД-исследований. Основная направленность Анализатора — способность дать быструю характеристику динамики исследуемого объекта в целом, включая системы до 100 000 атомов. Применение Анализатора способствует повышению эффективности исследований методом молекулярной динамики.
Исследование механической стабильности белковых молекул представляет практический интерес для конструирования биоматериалов с повышенной механической стабильностью.
Апробация работы. Материалы диссертации были представлены на следующих конференциях: 11-я, 13-я, 14-я, 15-я, 16-я, 17-я Международная Пущинская школа-конференция молодых ученых «Биология - наука XXI века» (Пущино, Россия, 2007, 2009, 2010, 2011, 2013); I и III Международная конференция «Математическая биология и биоинформатика» (Пущино, Россия, 2006, 2010); V и VI Санкт-Петербургская конференция молодых учёных «Современные проблемы науки о полимерах» (Санкт-Петербург, Россия, 2009, 2010); IV Съезд биофизиков России (Нижний Новгород, Россия, 2012), XI и XII международная конференция МКО-2011, МКО-2013 «Математика, Компьютер, Образование» (Пущино, 2011, 2013), VII и VIII Национальная конференция «Рентгеновское, Синхротронное излучения, Нейтроны и Электроны для исследования наносистем и материалов. Нано-Био-Инфо-Когнитивные технологии» (Москва, 2009,2011).
Публикации. Основные результаты диссертации представлены в 20 печатных работах, в том числе в 4 статьях в реферируемых научных изданиях из списка ВАК. Программа TAMD зарегистрирована в Федеральной службе по интеллектуальной собственности, свидетельство о государственной регистрации программы для ЭВМ № 2014612313.
Структура диссертации. Диссертация изложена на 148 страницах машинописного текста и состоит из введения, 4 глав (обзора подходов и методов, описания Анализатора траекторий молекулярной динамики, описания проведенных экспериментов), благодарностей, выводов, и списка цитируемой литературы, включающего 109 ссылок. Работу иллюстрируют 37 рисунков и 6 таблиц.
Программы для работы в области молекулярной динамики
Стремительное развитие вычислительной техники, особенно за последние 10 лет, привело к бурному росту количества научных работ в физике, химии, биологии и смежных науках, основным методом исследования в которых является так называемое «компьютерное моделирование» (или «компьютерный эксперимент»). Эти термины применяются в случаях, когда компьютер в научной работе используется не в традиционном качестве, т. е. в виде средства ускорения процесса расчета искомых величин по аналитически заданным формулам (или средства обработки введенной информации), но как особый «прибор». На этом приборе с помощью заданной модели и специально составленных программ проводится детальная имитация исследуемого процесса, в итоге которой извлекается информация об искомых свойствах системы. Технический прогресс в области вычислительной техники стимулировал развитие множества численных алгоритмов для решения различных задач с использованием компьютеров. В итоге компьютерное моделирование, наряду с традиционными теоретическими (аналитическими) подходами, а также экспериментальными методами, превратилось в мощное средство изучения свойств различных молекулярных систем и объектов, в ряде случаев едва ли не единственно возможное, а потому представляющее специальный интерес.
Результатом МД-расчетов являются траектории молекулярной динамики. Траекторные файлы представляют собой последовательную запись координат атомов макромолекулы через определенные промежутки времени. Исходя из определения, траекторные файлы в текстовом формате отличаются своей простотой и бесполезностью. Для извлечения информации из таких файлов используются специальные программы и методы обработки информации: от показа молекулярного кино до нахождения характеристик вдоль траектории (от времени). Данная работа содержит описание новых методов и характеристик анализа траекторий молекулярной динамики – коэффициента вариации молекулярной динамики, квазигармонического метода, расширенных динамических контактных карт и лент контактов, расширенных траекторий.
Актуальность темы исследования Методом моделирования молекулярной динамики (МД) пользуются во многих научно-исследовательских лабораториях. После проведения МД-эксперимента ставится задача анализа полученных данных. Возможны случаи, когда необходимо ответить на конкретные вопросы по эксперименту, а также когда возникает потребность описать эксперимент в целом, заострив внимание на структурные перестроения в ходе эксперимента.
Как правило, при анализе траекторий многие исследователи пишут собственные несложные программы для расчета простых характеристик. Вместе с тем, сложные алгоритмы работы с траекториями заложены в такие объемные пакеты как VMD и GROMACS, на изучение которых требуется до полугода рабочего времени.
Разработанная программа TAMD (Trajectory Analyzer of Molecular Dynamics, далее по тексту Анализатор) сочетает в себе: интуитивный графический пользовательский интерфейс, новые характеристики, направленные на быстрый анализ траектории в целом, а также является платформой для написания новых характеристик на траекториях и управляемой программой-платформой с интерпретатором скриптового языка для автоматизации рутинных действий.
В целях повышения быстродействия для анализа МД-систем из большого количества атомов, реализация Анализатора траекторий использует современные технологии, направленные на ускорение обработки информации, такие как технология вывода трехмерной графики OpenGL, параллельное программирование, в том числе массивно-параллельное (технология CUDA [110]).
Некоторые белки в клетке испытывают механические деформации при таких биологических процессах как межклеточная адгезия, сокращение мышц, транслокация белков через мембрану. Для понимания молекулярной природы механической стабильности белков необходимо провести большое количество МД экспериментов для исследования зависимости механических свойств белков от различных параметров. Исследование этого вопроса представляет практический интерес для конструирования биоматериалов с повышенной механической стабильностью.
При помощи Анализатора в данной работе проведен анализ механического разворачивания белка межклеточной адгезии кадгерина, а также влияние хиральности восьми альфа-спиральных белков на их механические свойства.
Цели и задачи
1. Разработка Анализатора траекторий молекулярной динамики как программного средства для анализа МД-траекторий с одной стороны, так и платформы для создания инструментария по анализу траекторий с другой. Создание новых алгоритмов исследования МД траекторий биомолекулярных систем. Обеспечение работы с молекулярными системами, содержащими до 100 000 атомов.
2. Получение МД-траекторий для различных гидратированных белков и решение следующих задач: a) Сравнение механических характеристик белка клеточной адгезии С-кадгерина (C-Cadherin) в зависимости от присутствия ионов различного типа. b) Исследование влияния хиральности альфа-спиральных белков на их механические свойства.
Научная новизна Создан новый инструмент для анализа МД-траекторий, позволяющий в интерактивном режиме рассчитывать конфигурационные и динамические характеристики молекулярных систем. В том числе, получение расширенных динамических контактных карт и лент контактов, нормальных мод, коэффициентов вариации.
Впервые методом молекулярной динамики проведен анализ механических характеристик макромолекулы белка С-кадгерина с ионами магния.
Впервые произведен сравнительный анализ последовательности разворачивания восьми альфа-спиральных белков по МД-экспериментам. Показано, что правозакрученные домены обладают большей механической стабильностью, чем левозакрученные.
Теоретическая и практическая значимость работы Анализатор траекторий является необходимым средством при проведении МД-исследований. Основная направленность Анализатора – способность дать быструю характеристику динамики исследуемого объекта в целом, включая системы до 100 000 атомов. Применение Анализатора способствует повышению эффективности исследований методом молекулярной динамики. Исследование механической стабильности белковых молекул представляет практический интерес для конструирования биоматериалов с повышенной механической стабильностью.
Коэффициент вариации молекулярной динамики. Распознавание процессов на исследуемой системе без предварительных сведений
Прежде всего, встает вопрос о целесообразности целенаправленного изменения алгоритмов и их реализации, а порой полного их изменения, преследуя задачу повысить их быстродействие.
Довод первый. Отладка программного комплекса, как правило, идет на небольших молекулярно-динамических системах. При значительном увеличении объема данных весьма часто обнаруживается некомфортная работа с реальной системой даже на мощных вычислительных установках. Многие программы используют загрузку полного объема данных в оперативную память. Идя по такому пути можно заранее оговорить, что программа не поддерживает работу с большими объектами.
Довод второй. Много ценной информации можно получить, анализируя динамику поведения системы. Для получения сложной характеристики по одному кадру траектории, затрачивается определенное время, как правило незначительное. Мы можем несколько раз получать одну и туже характеристику (например, контактную карту) для разных участков траектории. Если делать это вручную, исследователь либо тратит огромное количество времени на сбор коллекции характеристик, существенно экономя на их количестве, либо анализирует их в голове, надеясь на собственную память. Значительное повышение быстродействия при анализе больших систем дает возможность получения определенной характеристики вдоль всей траектории, давая представление о процессах, происходящих в системе.
Довод третий. Интерактивность. Тесно связана со вторым доводом. Весьма часто необходимо получать одну и туже характеристику, задавая различные параметры при расчете. Мгновенная реакция программного комплекса при вычислительных операциях, связанных с визуализацией, предоставляет исследователю возможность наглядного получения зависимости поведения объекта от настраиваемых параметров.
Буфер случайного доступа к траектории Нередко расчет траектории занимает огромное количество времени, что приводит к необходимости работы с траекторными файлами большого объема. С другой стороны, при увеличении степени подробности даже малой траектории (уменьшении шага, через который координаты атомов записываются на диск) могут также существенно возрастать дисковые объемы данных.
Под большим объемом данных будем иметь в виду объем, превышающий физическую оперативную память ЭВМ. Подготовленный пользователь сразу спросит, а как же обстоит дело с виртуальной памятью? Поясним этот вопрос. Дело в том, что управлением памяти занимается операционная система. Напомним, что под операционной системой подразумевается аппаратно-программная начинка компьютера, которая предоставляет некий программный интерфейс для работы остальных программ, оборудования, а также взаимодействия с ними пользователя. Программа, в частности TAMD, дает процессору команды на чтение определенного адреса памяти, сама не зная о том, находится ли он в физической памяти, либо только на диске. Как известно, доступ к физической оперативной памяти (RAM) происходит намного быстрее, чем к дисковой. Использование виртуальной памяти приводит к появлению еще одной копии траектории на диске, что также неэффективно. С другой стороны, нельзя не согласиться, что описываемый алгоритм будет работать медленнее с короткой траекторией, чем алгоритм полной загрузки данных в оперативную память.
Перечислим основные приемы работы с дисковыми данными: 1. Полное чтение данных в память. Самое быстрое с точки зрения обработки данных. Однако данный способ полностью непригоден для большого объема данных;
2. Прямое чтение. Каждый кадр читается при необходимости его использования. Требуется минимум оперативной памяти. Однако данный способ неэффективен при повторном чтении данных, что постоянно происходит при просчете будущих координат атомов для определения направления их движения;
3. Буферированное чтение. Остановимся подробнее на алгоритме последнего (см. Табл. 1).
Здесь номер кадра говорит только о времени доступа к нему и напрямую не зависит от кадра траектории. Представим себе очередь, организованную по принципу FIFO (first input – first output; первым пришел – первым обработан), только усовершенствованную – кадры могут меняться местами в процессе доступа к ним.
Проведение расчетов
Особенностью, сужающей область применения квазигармонического метода в контексте данной работы, считается требование минимизации системы. Как правило, в комплекс программ по моделированию молекулярной динамики включен алгоритм минимизации системы, который на выходе дает матрицу силовых констант, как это сделано, к примеру, в GROMACS. Одна из многочисленных подпрограмм которого способно находить частоты по матрице силовых констант.
Квазигармонический метод Исследуется молекулярная система в минимуме потенциальной энергии при фиксированной температуре. Задано n атомов (или других более крупных частиц) координатами xt(t), i=1… N, N=3n в момент времени t.
По траектории движения молекулярной системы можно найти средние положения частиц и матрицу ковариаций отклонений частиц от их средних положений. S = xixj (2.6.13)
Существует линейная система, решение которой отвечает тем же средним положениям частиц и той же самой матрице ковариаций. Алгоритм нахождения частотных характеристик такой системы известен. Можно получить из стат. физического рассмотрения связь матрицы ковариаций с матрицей силовых констант [48, 47]. S = kT-A 1 (2.6.14) Собственные числа и вектора обеих матриц однозначно связаны. Из курса линейной алгебры известно, что собственные числа обратной матрицы обратны искомым, а собственные вектора обеих матриц совпадают.
Непосредственно саму матрицу ковариаций легко получить из траектории молекулярной динамики. Предполагается, что если линейная и нелинейная системы имеют одинаковые средние положения частиц и одинаковые матрицы ковариаций для их смещений, то и их динамические характеристики будут близкими.
Предполагается, что получена траектория молекулярной динамики из численного опыта при нахождении системы в стационарном состоянии. Программная реализация делается в виде дополнения к программному комплексу TAMD. Делается предположение, что есть линейная система, похожая на исходную: у них одинаковые матрицы ковариации. Появляется подзадача где xi и xj -текущие значения координат, x0i и x0j - средние положения атомов. Усреднение ведется по заданному квазистационарному участку траектории.
Для вычисления матрицы ковариации требуется два раза обрабатывать участок траектории. За первый проход ищутся средние положения атомов, за второй вычисляется конечная формула (2.6.15).
Все алгоритмы и подпрограммы разработаны с учетом возможности обработки большого объема данных. Под большим объемом понимается объем информации, который потенциально может быть больше половины оперативной памяти вычислительной установки. На практике представленные алгоритмы должны работать с произвольным объемом данных. Достраивать алгоритм в процессе самой обработки достаточно сложно и нецелесообразно. Поэтому все алгоритмы работают с траекторией через модуль буферированного чтения траекторий, который хранит последние обрабатываемые кадры траектории в ограниченном объеме оперативной памяти и вместе с тем не приводит к потере быстродействия при произвольном чтении большого количества новых кадров.
Задача вычисления формулы (2.6.15) имеет линейную сложность, но при больших объемах данных может потребовать определенного времени выполнения. Чтобы его минимизировать, был предложен параллельный расчет матрицы ковариации для N-ядерной системы (N значительно меньше количества частиц). Требуется 2 прохода вдоль исследуемого участка траектории. Дисковые операции облегчают программные инструменты, заложенные в Анализатор. Параллельный алгоритм расчета матрицы ковариации выглядит следующим образом:
Проведение расчетов
Для образца с-Myb (1gv2) наблюдаются два различных пути сворачивания с помощью MК-моделирования [27]. В обоих случаях вторая спираль образуется в середине сценария, но концевые спирали меняются местами. При использовании метода молекулярной динамики также наблюдаются два различных пути разворачивания. Последовательность первого пути такова: сначала N-и С-концевые спирали одновременно разворачиваются, а затем разворачивается средняя спираль на средней и быстрой скоростях [таблица 4.3, рис. 25 (е) и 26 (г)]. Последовательность второго пути заключается в следующем: сначала С-концевая спирали, потом N-концевая, а затем средняя спираль при низкой скорости.
Для образца RAP1 (1fex) часто наблюдается следующий путь сворачивания с помощью MК-моделирования [27]: сначала формируется С-концевая спираль, затем средняя спираль [в 24 траекториях, см. рис. 25 (ж), [27], либо С-концевая и средняя спираль образуются одновременно (в 11 траекториях), и последней формируется в обоих случаях N-терминальная спираль. При использовании метода молекулярной динамики наблюдаются три пути разворачивания. Последовательность первого пути заключается в следующем: С-концевая спираль, потом N-концевая, а затем средняя спираль [таблица 4.3, рис. 26 (ж)]. Последовательность второго пути выглядит следующим образом: N-и С-концевые спирали разрушаются одновременно, а затем разворачивается средняя спираль. На третьем пути разворачивания сначала разрушается С-концевая спираль, а затем N-концевая и средняя спирали разрушаются одновременно.
На рисунке 25 (б) показана траектория левозакрученного белка BdpA (1bdd). Контактные карты и представительные структуры для соответствующих моментов времени разворачивания приведены на рисунке 26 (б). Наблюдаются три различные пути разворачивания при использовании метода молекулярной динамики. Последовательность разворачивания первого пути такова: сначала С-концевая спираль, потом N-концевая, а затем средняя спираль. Последовательность разворачивания второго пути выглядит следующим образом: N-и С-концевые спирали одновременно, а затем средняя спираль. Наконец, третий путь, когда разрушаются N-концевая спираль, а затем С-концевая, а после этого средняя спираль (таблица 4.3). При моделировании Монте Карло для левозакрученных доменов BdpA (1bdd) часто наблюдается следующий путь сворачивания. Первоначально формируется средняя спираль, [15, 68] затем N-концевая, и, наконец, образуется C-концевая спираль.
Для левозакрученного домена PAB (1prb) при моделировании Монте-Карло часто наблюдается следующий путь сворачивания. Сначала образуются С-концевая и средняя спирали, а N-концевая спираль образуется последней. При моделировании методом молекулярной наблюдаются четыре пути разворачивания белковых глобул. Последовательность первого пути заключается в следующем: С-концевая спираль, N-концевая, а затем средняя спираль [таблица 4.3, рис. 25 (а) и 26 (а)]. Последовательность второго пути: C-и N-концевые спирали разворачиваются первыми, а затем разворачивается средняя спираль. В третьем пути денатурации сначала разворачивается С-концевая спираль, а затем N-концевая и средняя спирали разворачиваться одновременно. В четвертом пути всех спирали разворачиваться одновременно.
Часто наблюдаемый путь сворачивания при моделировании методом Монте-Карло для глобулы psbd41 (2pdd) состоит в следующем: сначала формируется N-концевая спираль, затем средняя, наконец, С-концевая спираль. На траекториях механического разворачивания наблюдаются два пути денатурации белковой глобулы. На первом пути все спирали разворачиваются одновременно. На втором сначала разворачивается сначала С-концевая спираль, затем N-концевая и, наконец, средняя спираль [таблица 4.3, рис. 25 (в)]. Для образца В HP36 (1vii) при моделировании методом Монте-Карло часто наблюдается следующий путь сворачивания: сначала образуется С-концевая спираль, затем средняя и, наконец, N-концевая спираль. При использовании метода молекулярной динамики наблюдается два пути денатурации белковой глобулы. В первом пути все спирали разворачиваются одновременно. Последовательность разворачивания второго пути заключается в следующем: С-концевая спираль, N-концевая, а затем разворачивается средняя спираль [таблица 4.3, рис. 25 (г)].
Следует отметить, что на всех траекториях механического разворачивания наблюдалось, что концевые спирали начинают разрушаться первыми у всех восьми белков. Это объясняется тем фактом, что при разворачивании концевые спирали действуют на среднюю сжимающим образом. Также из анализа белковых структур можно предположить, что чем больше контактов на остаток и радиус поперечного сечения, тем белок механически более стабилен (см. Таблицы 4.1 и 4.2).
Методом молекулярной динамики были изучены четыре правозакрученных и четыре левозакрученных альфа-спиральных белка в экспериментах при растяжении с постоянной скоростью (192 траекторий) и под действием постоянной силы (64 траекторий). Анализ траекторий молекулярной динамики с явным растворителем показали, что правозакрученные альфа-спиральные домены более механически устойчивы, чем левозакрученные. Этот результат можно объяснить, по крайней мере частично, тем, что правозакрученные альфа-спиральные белки имеют большее число контактов на остаток, чем левозакрученные белки.