Содержание к диссертации
Введение
ГЛАВА 1. Обзор литературы 14
1.1 Традиционные методы анализа кривых рентгеновского малоуглового рассеяния 14
1.1.1 Определение структурных инвариантов 18
1.1.2 Расчет структурных характеристик сильно вытянутых частиц 21
1.2 Информационное содержание данных малоуглового рассеяния... 25
1.3 Методы восстановления формы частиц при отсутствии дополнительной информации 26
1.4 Расчет кривых малоуглового рассеяния частицами с известной кристаллографической структурой 34
1.5 Анализ структуры белков и комплексов. Метод молекулярной тектоники 37
1.6 Кривые малоуглового рассеяния смесями: исследование формы и количества компонент 39
1.7 Новые задачи рентгеновского малоуглового рассеяния 40
ГЛАВА 2. Получение, обработка и интерпретация данных рентгеновского малоуглового рассеяния 43
2.1 Сбор данных синхротронного рассеяния: установка ХЗЗ кольца DORIS III (DESY) 43
2.2 Первичная обработка данных 48
2.3 Анализ и интерпретация данных. Программа PRIMUS. Система ATS AS 2.0 50
ГЛАВА 3. База данных для быстрой классификации белков но данным рентгеновского малоуглового рассеяния 58
3.1 Атомные модели и критерии сравнения кривых 59
3.2 Малоугловая часть мапоугловых данных и аналоги по внешней форме 63
3.3 Сред неугловая часть кривой и аналоги по доменной архитектуре 66
3.4 Алгоритм и пользовательский интерфейс разработанной базы данных » DaRa 69
3.5 Примеры использования базы данных 73
ГЛАВА 4. Определение структуры вертексного комплекса бактериофага PRD1 в растворе 79
4.1 Бактериофаг PRDI как структурный аналог аденовируса 79
4.2 Экспериментальные данные 84
4.3 Учет дополнительной информации 85
4.4 Построение моделей 87
ГЛАВА 5. Исследование процесса олигомеризации промежуточного филамента виментина в различных внешних условиях 100
5.1 Промежуточные филаменты: компонента цитоскелета 100
5.2 Экспериментальные данные и алгоритм их обработки 106
5.3 Построение моделей олигомеров виментина 110
5.4 Олигомеризация виментина в различных внешних условиях 117
Заключение 130
Библиография 135
- Расчет структурных характеристик сильно вытянутых частиц
- Анализ структуры белков и комплексов. Метод молекулярной тектоники
- Первичная обработка данных
- Малоугловая часть мапоугловых данных и аналоги по внешней форме
Введение к работе
Актуальность темы. История современной физики показывает, что рентгеновское излучение является эффективным средством для физической, химической, биологической и структурной характеризации вещества. Например, рентгеновская флюоресценция широко используется для качественного и количественного анализа вещества, рентгеновская фотоэлектронная спектроскопия может использоваться для изучения электронной структуры вещества. Рентгеновская кристаллография позволяет определять трехмерные структуры на атомном разрешении, а различные методики малоуглового рентгеновского рассеяния дают структурную информацию для аморфных материалов с разной степенью разрешения. Малоугловое рентгеновское рассеяние (МУР), представляющее собой центральную часть дифракционной картины, также позволяет исследовать вещества самой разнообразной структуры, в которых характерные размеры неоднородностей электронной плотности лежат в диапазоне 1ч-10 нм. Чем больше размер рассеивающего объекта, тем в меньшем угловом интервале сосредоточено рассеянное излучение, и рассеяние на малые углы (меньше нескольких градусов) несет информацию о "крупномасштабном" (по отношению к длине волны излучения X) рассеивающем ансамбле. В структурном анализе вещества с помощью рентгеновского и нейтронного рассеяния ^ - 0.1 -т-1 нм, что по порядку величины совпадает с межатомными расстояниями. Таким образом, МУР дает информацию о надатомпой структуре вещества.
Метод малоуглового рассеяния применяется в изучении объектов разнообразных классов: металлов и металлических сплавов, синтетических полимеров в растворе и сухом виде, эмульсий, пористых материалов, наночастиц и биологических макромолекул в растворе. Первые эксперименты с использованием МУР проводились уже в 1930х годах, когда появились первые фундаментальные работы, посвященные теоретическим основам метода, в которых было продемонстрировано, что с помощью МУР можно получать информацию не только о структуре неупорядоченных или # частично упорядоченных систем, но также и о размерах и форме частиц. В 1960х годы метод начал использоваться также в изучении биомакромолекул в растворах. Существенный прорыв в развитии и использовании метода МУР произошел в 1970е годы благодаря появлению источников синхротронного излучения (СИ). Использование синхротронного рентгеновского излучения значительно расширило применение малоуглового рассеяния в структурных исследованиях. Его преимущество по сравнению с излучением рентгеновских трубок определяется значительно более высокой интенсивностью непрерывного рентгеновского спектра и отсутствием характеристических линий, которые затрудняют вариацию длин волн при исследовании рентгеновских спектров поглощения и аномального рассеяния с использованием рентгеновских трубок. Излучение в рентгеновских трубках образуется при резком торможении электронов, летящих со скоростью * порядка 104 м/с в тонком слое металла, и при этом практически вся энергия электронов превращается в тепло, что и ограничивает мощность рентгеновского пучка. В случае синхротронного ускорителя коротковолновое электромагнитное излучение возникает при ускоренном движении электрона на релятивистских скоростях.
Эффективность СИ вызвана сочетанием указанных особенностей и следующими важнейшими для структурных исследований свойств: очень широкий спектральный интервал малая угловая расходимость малый размер источника высокая степень поляризации периодическое прерывание пучка во времени.
Каждое из этих свойств и комбинация ряда из них позволили проводить исследования фундаментального и прикладного направлений, немыслимые без использования синхротронного излучения. Для мапоуглового рассеяния главным образом пока используется высокая интенсивность пучка, его малая угловая расходимость и широкий » спектральный интервал. Область длин волн в синхротронных источниках охватывает интервал от жесткого рентгеновского излучения до инфракрасного диапазона, что позволяет исследовать структуру вещества с учётом аномального рассеяния на некоторых атомах. Одной из наиболее перспективных областей применения малоуглового рассеяния рентгеновского синхротронного излучения является изучение молекул биополимеров в растворе. В последние десятилетия быстрое развитие экспериментальных методов и способов обработки и интерпретации данных рассеяния растворами биомакромолекул привело к значительному прогрессу в двух направлениях: в области структурных исследований равновесных систем, анализе кинетики процессов межмолекулярных взаимодействий, изучения свертки белков и перестроек в расположении субъединиц (которыми часто обусловлены биологические функции белков), в реальном * времени.
Актуальность таких исследований обусловлена тем, что строение макромолекул и механизм их функционирования изучаются в условиях, максимально приближенных к физиологическим, тогда как белковая кристаллография применима лишь к кристаллическим объектам, а методы электронной микроскопии и электронной дифракции требуют специальной обработки образцов. Последнее может приводить к неконтролируемым изменениям структуры и делать невозможным исследования конформационных изменений в структуре молекулы (которые происходят под влиянием эффекторов или изменения физико-химических условий), а также сборки или процессов свертки белков. Кроме того, МУР позволяет исследовать структурные перестройки, вызванные изменением условий эксперимента.
В связи с появлением в 1990-е годы нового научного направления, называемого структурная геномика, одной из главных задач которого является определение структуры всех биомакромолекул, синтезируемых данным исследуемым геном, важным вопросом остается быстрая * характер и заци я массы биомолекул, получение кристаллов которых затруднено. Для решения этой проблемы хотя бы на низком разрешении может быть успешно применен метод малоуглового рассеяния при условии создания метода быстрой автоматической характеризации белков. Также, несмотря на все увеличивающееся число научных работ, посвященных определению структуры отдельных белков и комплексов, остается много неисследованных сложных биологических систем, изучение компонент которых возмоно только с помощью метода МУР.
Таким образом, развитие новых методов обработки и интерпретации экспериментальных данных, исследование структуры биологических макромолекул методом МУР и, самое главное, развитие фундаментальных аспектов принципов интерпретации данных малоуглового рассеяния с использованием синхротронного излучения являются актуальной задачей.
Цель работы.
В методической части настоящей диссертационной работы представлены разработка и способ реализации метода быстрой классификации белков по данным рентгеновского малоуглового рассеяния, оригинальность и простота использования которого показаны на ряде проведённых тестов.
В экспериментальной части работы описывается построение модели вертексного комплекса бактериофага PRD1, а также детальный анализ зависимости олигомеризации промежуточного филамента вимснтина в растворах от величин рН, концентрации белка и ионной силы растворителя.
Таким образом, в настоящей диссертационной работе поставленыследующие задачи:* -определение критериев связи между формой среднеугловых частей кривых малоуглового рассеяния и внутренней структурой биомакромолекулы; создание метода быстрой классификации белков по внешней форме и доменной архитектуре на основе независимого анализа малоугловой и среднеугловой частей кривых рассеяния; реализация метода быстрой классификации белков; определение формы вертексного комплекса бактериофага PRD1, построение моделей его компонент и сравнение данных с результатами, полученными ранее с помощью других методов; анализ процесса олигомеризации виментина в растворах в различных внешних условиях и построение моделей его комплексов с учётом дополнительной информации, полученной ранее биохимическими методами и методом электронной микроскопии.
Научная новизна и практическая значимость работы.
Научная новизна работы определяется тем, что впервые разработан и реализован метод быстрой классификации молекул белков по данным рентгеновского малоуглового рассеяния. Впервые предложена модель полного вертексного комплекса бактериофага PRD1 и проведен детальный анализ динамики взаимодействия молекул промежуточного филамснта виментина в растворе в разных внешних условиях.
Проведённая работа имеет практическое значение, так как открывает возможности быстрого поиска непосредственно по экспериментальным кривым малоуглового рассеяния биологических макромолекул, схожих по * внешней форме и доменной архитектуре с неизвестной структурой. Новый метод может быть использован для быстрой характеризации белков в задачах нового научного направления — структурной гсномики.
Результаты, полученные в экспериментальной части настоящей работы, дают новую информацию о бактериофаге PRD1, который принадлежит к классу вирусов с внутренней мембраной и является структурным аналогом человеческого аденовируса, и также о кинетике и динамике взаимодействия молекул промежуточного филамента виментина в растворе. Последнее имеет важное значение в понимании механизмов заболеваний, связанных с нарушениями процесса самосборки филаментов в клетках живых организмов.
Структура диссертации.
Диссертация состоит из введения, пяти глав, выводов, заключения и списка литературы. Объём диссертации составляет 149 страниц, включая 37 рисунков и 4 таблицы. Список цитируемой литературы содержит 161 наименование.
Во Введении обоснована актуальность темы, рассмотрены цель и задачи работы.
Первая глава посвящена обзору литературы по теме малоуглового рассеяния и применения этого метода к анализу структуры биологических объектов. Рассмотрены общие методики и конкретные алгоритмы обработки данных, используемые в данной диссертационной работе, а также описаны новые направления исследований структурных особенностей биомакромолекул в растворах.
Во второй главе приведено описание экспериментальной установки, на которой в ходе выполнения данной работы проводились эксперименты, способы первичного анализа интенсивности рентгеновского излучения и интерпретации данных рассеяния, которые использовались при обработке данных. Методы, описанные во второй главе, были разработаны в течение последнего десятилетия в лаборатории малоуглового рассеяния Института кристаллографии и частично дополнены в процессе выполнения данной работы.
В третьей главе представлен новый метод классификации белков с неизвестной атомной структурой по данным рентгеновского МУР от растворов и поиска аналогов неизвестной биомакромолекулы по внешней форме и доменной архитектуре. Для этой цели из кривой малоуглового рассеяния выделяются две части, так называемые мало- и среднеугловая, первая из которых определяется внешней формой, а вторая - внутренней структурой биомакромолекулы в растворе, что позволяет независимо анализировать информацию о форме и доменной архитектуре частицы. Для реализации метода создана база данных структур высокого разрешения, взятых из архивов существующих баз данных и разработан ряд компьютерных программ, которые позволяют использовать метод через Интернет. Эффективность предложенного метода иллюстрируется на нескольких экспериментальных данных рассеяния растворами белков с известной структурой высокого разрешения.
В четвертой главе описано определение структуры вертексного * комплекса бактериофага PRDI. Вертекс представляет собой белковый комплекс, составленный из трех белков, структура высокого разрешения которых до настоящего времени неизвестна. В настоящей работе восстановлена форма низкого разрешения всех вертексных белков и построена модель всего комплекса с использованием данных МУР и других структурных методов.
Пятая глава посвящена анализу олигомеризации промежуточного филамента виментина при различных внешних условиях, т.е. при разных значениях кислотности и ионной силы растворов и описанию получения моделей возможных комплексов виментина, в том числе восстановлению внутренней архитектуры так называемого филамента единичной длины по данным малоуглового рассеяния с использованием информации, полученной ранее биохимическими методами и методами электроной микроскопии.
На защиту выносятся следующие полоз/сепия: - проанализировано информационное содержание среднеугловой части малоугловой кривой рассеяния, определяющейся доменной архитектурой биомакромолекулы. - разработан метод быстрой классификации белков по данным малоуглового рассеяния, основанный на независимом анализе участков кривых, содержащих информацию о внешней форме и внутренней структуре биомакромолекулы, -. разработанный метод реализован в виде пакета компьютерных программ, который позволяет проводить поиск структур, схожих с неизвестным белком по внешней форме и доменной архитектуре по его кривой рассеяния через Интернет. - построены модели вертексного комплекса бактериофага PRD1 с использованием структур низкого разрешения его компонент, восстановленных по данным рентгеновского малоуглового рассеяния. - определена зависимость относительного содержания олигомеров разных степеней промежуточного филамента вимснтина от концентрации белка в растворе, значения рН и количества добавленной соли NaCl. - построены модели виментинового филамента единичной длины по данным рентгеновского малоуглового рассеяния.
Личный вклад автора.
Автором дополнены и модифицированы программы обработки экспериментальных данных рентгеновского и нейтронного малоуглового рассеяния (OLIGOMER, PRIMUS).
Автором разработан ряд компьютерных программ для реализации метода быстрой классификации белков, основанного на анализе данных, полученных методом малоуглового рассеяния. Создана база данных белковых структур, разработана и реализована WEB-версия базы данных.
Автором проведено тестирование базы данных с использованием нескольких рассчитанных и экспериментальных кривых малоуглового рассеяния.
Автором получены экспериментальные кривые рассеяния растворами белков вертексного комплекса бактериофага PRD1 и олигомеров промежуточного филамента виментина на станции ХЗЗ синхротрона DESY (Гамбург, Германия), а также проведена первичная обработка, анализ и интерпретация полученных экспериментальных данных и построены модели белков вертексного комплекса бактериофага PRD1 и пяти основных олигомеров промежуточного филамента виментина и проведен детальный анализ зависимости олигомеризации виментина от различных внешних условий.
Постановка задачи, интерпретация и обсуждение полученных результатов осуществлялись совмєстеіо с научными руководителями.
Апробация работы, fc Результаты работы докладывались: на лекциях и практических занятиях Школы по малоугловому рассеянию растворами биологических макромолекул (EMBO Practical Course on Solution Scattering from Biological Macromolecules, Гамбург, Германия, сентябрь 2001); на конференции HASYLAB (HASYLAB Users Meeting, Гамбург, Германия, февраль 2003); на общем семинаре Биоцентра г. Базеля, Швейцария (приглашенный докладчик; июнь 2003); на конкурсе научных работ Института кристаллографии РАН в 2003 году (работа удостоена первой премии).
На следующих международных и национальных конференциях: « Конференция студентов и аспирантов по химии и физике биополимеров (Пущино, Россия, июнь 1999)
Второй Биофизический съезд (Москва, Россия, август 1999) «Ломоносов-2001» — Международная Конференция студентов и аспирантов по фундаментальным наукам (МГУ им. М. В. Ломоносова, v Москва, Россия, 2001; работа удостоена второй премии)
Третья национальная конференция по применению рентгеновского, синхротронного излучений, нейтронов и электронов для исследования материалов «РСНЭ-2001» (Москва, Россия, май 2001) «SAS 2002» (ХЇІ International conference on Small-Angle Scattering, Венеция, Италия, август 2002)
Четвёртая национальная конференция по применению рентгеновского, синхротронного излучений, нейтронов и электронов для исследования материалов «РСНЭ-2003» (Москва, Россия, ноябрь 2003).
Публикации.
Результаты исследований по теме диссертации опубликованы в 12 работах [63,89,94,95,120,154-160].
Расчет структурных характеристик сильно вытянутых частиц
Для сильно вытянутых частиц, т.е. частиц, протяженных в одном измерении (z) гораздо больше, чем в двух остальных, рассеяние обладает характерными особенностями. Предположим, что распределение плотности в сечении, перпендикулярном оси z, постоянно для любого z. Выделение компоненты плотности в сечении XY П(г,/) приводит к виду выражения для рассеивающей плотности: р(х,у,г) = р(х,у)Щ:,І) (1.21) тогда I(s) = A2(s) = $(x,y)L25\LtZ) (1.22) где М У) = \\p(x, У) схр[/(дХ + yY)}hdy, S(utv) m(miv)/mtv, a Sc - сечение частицы в плоскости ху.
Поскольку, согласно нашим предположениям, значение L велико, то функция d(Ly Z) стремится к 5(Z), т.е. практически вся интенсивность рассеяния сосредоточена вблизи плоскости XY. Поэтому интенсивность малоуглового рассеяния от такого объекта будет определяться двумерным усреднением интенсивности A2o(X,Y) с последующим вращением плоскости 2=0. Иными словами, функции А20(Х,У) и tf(L, 7) можно усреднить независимо, что даст в результате: I{s) = L-Ie{s). (1.23) s Таким образом, для сильно вытянутых частиц удается выделить в кривой рассеяния "фактор длины", пропорциональный s \ и интенсивность рассеяния Ic(s), обусловленную структурой частицы в поперечном сечении р{ху). Также для сильно вытянутых частиц, можно ввести характеристическую функцию поперечного сечения гЛг) = — \d p\\p{u)p(u + r)dxdy (1.24) где векторы миг лежат в плоскости ху7 а. р - угол между ними. Усредняя полученное выражение и учитывая, что усреднение двумерной exp[i(xX+yY)] R2LejJo(sr) (J0 функция Бесселя нулевого порядка, r=(x2+y2) /), получаем: Ic(s) = 2л- j f (ry0(sr)«fr (1.25) (d - диаметр сечения Sc). Выражение, обратное (1.25), существует в силу обратимости преобразования Ханкеля и записывается в виде: 1 rc(r) = — \le(s)J0(sr)sds (1.26) Для частиц, у которых два измерения сильно превышают третье (т.е. сильно сплюснутых частиц), также удается разделить интенсивность малоуглового рассеяния на разные структурные составляющие. По аналогии с выкладками, проведенными для интенсивности рассеяния сильно вытянутой частицей, можно получить: І{3) = ЩіІ({з) (L27) s где SrLyL. - площадь частицы. Характеристическая функция поперечного сечения частицы 7" r,{r)=\p(u)p(u + r)du (1.28) о где г - координата в направлении х, а Т - толщина ламеллы, связана с I,(s) преобразованиями: г It(s) = 7t\yXr)cos($r)dr (1.29) о ГXs) = - f/,(r)cos(jr)G?r (1.30) o Как и в случае сильно вытянутых частиц, разделение интенсивности на разные составляющие справедливо для не слишком малых углов: s lids"2. Приемы определения инвариантов сильно вытянутых и сильно сплюснутых частиц в принципе остаются такими же, как для общего случая, но здесь при расчетах необходимо контролировать, насколько хорошо выполняются предположения о сильной анизометрии частиц. Для сильно вытянутых частиц, пользуясь разложением функции Бесссля в ряд Маклорена, можно получить из (1.25): і /( ) =/e(0)exp(-±j2#). (1.31) Ic(0) характеризует количество рассеивающей материи в поперечном сечении, Rc - радиус инерции этого сечения. Для вытянутых частиц длины L можно приближенно записать: S=LCL, V=SCL, где Lc и Sc - соответственно параметр поперечного сечения частицы и его площадь. Следовательно, радиус инерции поперечного сечения сильно вытянутых частиц может быть определен из графика, аналогичного графику Гинье: (ln(sl(s)) от s ) (например, [1, 14]).
Это значит, что непрерывная функция I(s) может быть представлена своими значениями в дискретном наборе точек (так называемых Шенпоновских каналов), где sirkmlDmax. Число параметров (степеней свободы), необходимое для представления аналитической функции I(s) на интервале [smjn, smas] дается числом Шенноновских каналов {Ns-Dmax(smax-s„if,)/Tt) [16]. На практике, кривая рассеяния быстро спадает с ростом s, и I(s) обычно измеряется при разрешении хуже 1 им, и, следовательно, число Шенноновских каналов не превышает 10-15.
Один из принципиальных вопросов - представляет ли Ns максимальное число независимых параметров, которые могут быть получены из кривой рассеяния - интенсивно обсуждался в течение последних десятилетий [17-19]. Очевидно, что большие значения Ns соответствуют более высокому информационному содержанию данных, но в тоже время для того, чтобы функция интенсивности рассеяния I(s) имела физический смысл, ряд (1.35) обязан содержать бесконечное число слагаемых. Внутри Шснноновского интервала приближение (1.35) позволяет корректно описать I(s), но при приближении к smax начинают наблюдаются систематические отклонения. Однако, при более высоких углах I(s), представленная рядом (1.35), колеблется около нуля, что уже не имеет физического смысла, потому что интенсивность рассеяния не может быть отрицательной. Но в реальном эксперименте данные МУР обычно существенно переопределены, т.е. экспериментальный угловой интервал As намного уже, чем Шенноновский интервал As=n/DmM. И как известно из теории восстановления оптических изображений [16], такое переопределение позволяет в принципе увеличить эффективное число Шенноновских каналов (так называемый эффект "суперразрешения").
Анализ структуры белков и комплексов. Метод молекулярной тектоники
В последние десятилетия появилось огромное количество новой информации о структуре и функциях белков. Однако, самые важные клеточные функции белков совершаются не отдельными белками, а макромолекулярными комплексами. Такие комплексы обычно слишком велики для исследования методом ЯМР и, кроме того, они часто обладают внутренней структурной гибкостью, затрудняющей их кристаллизацию. Кривые рассеяния растворов чувствительны к изменениям четвертичной структуры макромолекул, и поэтому метод МУР оказывается чрезвычайно полезен для анализа макромолекулярных комплексов. Наиболее подробные модели могут быть построены в случае, когда известны с высоким разрешением структуры отдельных доменов или субъединиц, составляющих комплекс.
Предположение, что третичная структура в большей степени сохраняется при образовании комплексов, позволяет использовать моделирование жесткими телами (rigid body modelling), иногда называемое методом молекулярной тектоники, для построения макромолекулярных комплексов [50-52]. В частности, для ансамбля из двух субъединиц комплекс может быть построен варьированием шести позиционных параметров, описывающих относительное положение и ориентацию второй субъединицы по отношению к первой [40,45,53,54].
Алгоритм моделирования жесткими телами заключается в следующем. Рассмотрим комплекс, состоящий из двух субъединиц (А и В), Амплитуды рассеяния от субъединиц, расположенных в центре с некоей исходной ориентацией, обозначим какЛ( ) и B(s), соответственно. При фиксированной первой субъедииице произвольный комплекс может быть получен вращением и сдвигом второй субъединицы. Вращение описывается углами Эйлера [47], а сдвиг вектором и = (ил, иу, и.), так что эта операция описывается шестью параметрами. Обозначим через C(s) амплитуду рассеяния от второй субъединицы в новом положении, тогда рассеяние комплексом может быть выражено как [5,53]: ОД = М ) + М0 + 2{Л( )С ( ))П (1.57) где оп обозначает сферическое усреднение в обратном пространстве. Удобно представлять амплитуды рассеяния, используя сферические гармоники Y}m(Q.), тогда благодаря ортогональным свойствам сферических гармоник уравнение (1.57) сводится к следующему выражению: /(j)=2 2f;xKwr+ N2+2Rek )c;(i)] (1.58) /«о №=-; При условии, что структуры субъединиц известны, можно вычислить амплитуды рассеяния и парциальные функции Aim(s) и /m(s) из атомных моделей, как показано в [40,45].
Очевидно, что в отсутствие информации о структуре составляющих смеси получить информацию даже об их форме невозможно. Классическим вопросом анализа кривых рассеяния смесями является задача о нахождении методом наименьших квадратов с неотрицательными решениями [59] объемных долей компонент vjfc в смеси в том случае, если их структура, а значит и интенсивность, известны Ik(s) (например, [1, 60]). Такой подход хорошо зарекомендовал себя в исследованиях хорошо описанных систем, таких как равновесные смеси белковых комплексов.
Даже в том случае, когда число компонент и их кривые рассеяния неизвестны, информация о системе может быть получена путем анализа значений сингулярных чисел матрицы, стобцами которой являются значения экспериментальных интенсивностей от набора смесей различного количественного состава [61]. Число компонент равно минимальному числу независимых сингулярных векторов такой матрицы, линейные комбинации которых приближают кривые рассеяния соответствующими смесями с точностью до случайных экспериментальных ошибок. Впервые метод сингулярного разложения (SVD) стал использоваться в МУР начале 1980-х годов [62], и сейчас становится все более популярным в приложениях к анализу результатов МУР экспериментов в реальном времени [64-66]. Также разработаны и доступны для использования программы для анализа кривых рассеяния методом SVD (например, [63]).
Биофизические исследования сборки белков, их существенных конформационных изменений или сворачивания - часть программы поиска принципов организации живых систем на микроскопическом уровне [67]. Долгое время главным вопросом структурной биологии, который изучался с РОСГ ТлССЛЯ ГСКУДЛ -ТГЕ.-Ц:ІЛІІ помощью экспериментов методом малоуглового раЬссянйя в еальном времени, было исследование процесса сборки вирусов и вирусных оболочек, но в последнее время на первый план выходит проблема сворачивания белка. Наравне с классическими методами интерпретации данных (оценка радиуса инерции и интенсивности рассеяния в нулевой угол) активно используется метод сингулярного разложения, т.к. только он позволяет достоверно определить наличие нескольких компонент в исследуемом образце. Изменения 1(0) и Rg, наблюдаемые в некоторых системах [68, 69], могут быть интерпретированы как изменение парциального объема белка в процессе сворачивания или расплетения, но могут не определить наличие промежуточных состояний [66,70], Кинетика трансформаций и биологических процессов самоорганизации может быть успешно исследована МУР на доступных ему пространственном и временном разрешениях. Нужно также обязательно иметь в виду, что физиологический смысл изучений in vitro ограничен тем фактом, что in vivo условия свертки и процессинга значительно отличаются от условий in vitro, особенно для белков, полипептидные цепи которых складываются в процессе их синтеза на рибосомах и /или с вмешательством других белков (шаперонов). Но можно предположить, что промежуточные этапы процесса достаточно схожи. С помощью МУР можно характеризовать общие свойства различных состояний смесей и вкупе с SVD определить минимальное число состояний, необходимых для описания экспериментальных данных.
Первичная обработка данных
Экспериментальные данные, полученные на установке ХЗЗ записываются на жесткий диск присоединенного компьютера в бинарном формате ОТОКО [86], который также используется на многих других экспериментальных установках (например, установка А2, HASYLAB, DESY, Германия; Х27С, синхротрон NSLS, Brookhaven, США; D24, французский синхротрон LURE, Orsay; несколько установок в лаборатории Daresbury, Англия). Форматы ОТОКО для систем UNIX (Big Endian) и PC (Little Endian) совместимы друг с другом и могут быть переведены один в другой программой ENDCON.
Набор экспериментальных данных, записанных Б бинарном виде в формате ОТОКО состоит из трех файлов: главного, записанного в ASCII формате и двух связанных с ним бинарных файлов, первый из которых содержит данные успешно проведенных временных серий измерений (обычно одна временная серия представляет собой экспозицию длительностью одну минуту), и второй - вспомогательные данные, такие как показания счетчика ионизационной камеры, величина тока в накопительном кольце, время ожидания и считывания и т.д..
Экспериментальная зависимость интенсивности рассеяния раствором белка / от номера канала детектора п с учетом функции отклика детектора определяется следующим образом (см, например, [87]) где индексы Бит обознают рассеяние образцом и растворителем (буфером, в котором растворён белок), с - концентрацию образца и Det(n) - функцию отклика детектора. Is(n) и 1т(п) представляют собой интенсивность излучения, рассеянного на растворе белка и растворе буфера, соответственно, и hAn) и Ля,й(«) обозначают усредненную интенсивность первичного пучка, прошедшего, соответственно, через образец и буфер. Очевидно, что для получения рассеяния белком должны быть измерены две кривые рассеяния -непосредственно раствором белка и отдельно - буфером, в котором он растворён. Обычно вторая кривая измеряется два раза - до и после кривой рассеяния раствором, что дает возможность учесть возможные ошибки, вызванные нестабильностью пучка или возможными ошибками записи данных. В том случае, когда проводится исследование серии растворов одного и того же белка с разными концентрациями, схема эксперимента выглядит следующим образом: измеряется рассеяние буфером, затем одним из растворов, затем снова буфером, затем следующим раствором и т.д.. Последней всегда должна быть записана кривая рассеяния буфером.
Обработка данных, записаных в бинарном виде в формате ОТОКО проводится с помощью программы SAPOKO. В зависимости от типа измерений, программа может совершать несколько операций. Поскольку наборы экспериментальных данных содержат в себе информацию о количестве фотонов во всех каналах детектора, то очевидно, возможна ситуация, когда в некоторых (обычно краевых) зонах детектора импульсов не было. Для отбрасывания нулевых данных из таких "пустых" каналов кривая рассеяния умножается на специальную функцию "маску". На следующем шаге программа SAPOKO нормирует данные, записанные в каждой временной рамке (по отдельности) на функцию отклика детектора. Затем эти нормированные данные обрабатываются согласно стандартным статистическим процедурам [88]. Полученные таким образом наборы данных всех временных рамок сравниваются с одной, произвольно выбранной в качестве референсной, и усредняются в том случае, если удовлетворяют статистике 2 [88]. Таким образом, в результате работы SAPOKO файл в формате ОТОКО, содержащий данные для отдельных временных рамок, заменяется на один, в котором содержатся также в бинарном формате усредненные данные рассеяния и соответствующие экспериментальные ошибки. На следующем этапе данные в формате ОТОКО переводятся в текстовый формат ASCII. В этом случае файлы имеют форму таблицы, состоящей из трех колонок - значений модуля вектора рассеяния s, интенсивности J(s) и стандартных отклонений o (sj), соответственно.
Сглаженная экспериментальная функция отклика детектора для калибровки данных строится в PRIMUS с помощью вызова программы DETECTOR соответсвующей кнопкой "Detector". Калибровка оси значений вектора рассеяния s проводится с помощью диалога "Makeaxis" по данным рассеяния от стандартных образцов с известной периодичностью структуры (см. п. 2.2). Модуль MAKEAXIS имеет удобный интерфейс для показа этих данных рассеяния и интерактивного выбора пиков, информация о положении которых затем используется для восстановления зависимости величиной вектора рассеяния и номером канала детектора. Используя полученную информацию, программа PRIMUS с помощью модулей "Binasc" (для данных, записанных в отдельных временных рамках) или "Averasc" (для кривых рассеяния, усредненных SAPOKO) переводит экспериментальные данные в формат ASCII.
Основное рабочее окно программы (рис.2.2) позволяет работать одновременно не более чем с десятью кривыми рассеяния. При открытии файлов с данными рассеяния PRIMUS проверяет адекватность данных, которая определяется обязательным возрастанием величины s в первой колонке и отсутствием нулевых значений интенсивностей. Модуль вектора рассеяния может быть записан в разных единицах - нм"1 или А , которые могут заменяться друг на друга. Также в основном рабочем окне программы могут быть указаны концентрации образцов и шкалирующие множители для кривых рассеяния, отличные от значений по умолчанию, равных 1. Содержимое файлов, отмеченных в основном рабочем окне как "Active", может затем отображаться на графической панели программы (рис. 2). Опция "Sasplot" дает дополнительные возможности манипуляций с графическими изображениями с использованием различных шкал и возможности выбора диапазона и масштаба с помощью мыши. Программа SASPLOT также может использоваться независимо от PRIMUS.
Линейные операции с двумя выбранными (т.е. отмеченными в главном рабочем окне) файлами, такие как усреднение, вычитание данных и деление могут выполняться с помощью вызовов опций "Average", "Subtract" и "Divide", соответственно, в основном рабочем онке программы PRIMUS, также как операции "Adjmul" (шкалирование методом наименьших квадратов) и "Adjust" (шкалирование и корректировка константы). В результате работы каждой из этих операций программой создается новый файл, имя которого записывается в окно "Output", который может также быть использован в последующей работе.
Малоугловая часть мапоугловых данных и аналоги по внешней форме
При анализе малоугловой части данных МУР в первую очередь были поставлены следующие вопросы: (1) существуют ли молекулы с различной формой, которые дают совпадающие кривые рассеяния; (2) чему равно максимальное значение RJM, отвечающее молекулам с практически совпадающей формой?
Первым шагом был расчет величин RJI для каждой пары кривых рассеяния от 1000 произвольно выбранных белков со схожими значениями ММ. Одновременно с этим программой SUPCOMB [35] расчитывался количественный критерий совпадения формы для каждой пары молекул. Две произвольные трехмерные структуры, представленные набором точек, располагаются программой SUPCOMB в пространстве, минимизируя параметр, называемый нормированной пространственной невязкой (normalized special discrepancy - NSD). NSD является количественным критерием расхождения трехмерных объектов, который для близких структур принимает значения близкие или меньшие единицы (см. Главу 1, п. 1.3).
Для сокращения компьютерного времени структуры атомного разрешения при расчетах NSD были заменены моделями, состоящими из плотно упакованных виртуальных атомов диаметром 0.3 - 0.4 нм. Такая операция сохраняет общую форму частицы и дает значения NSDt адекватно представляющие уровень схожести формы моделей.
Интересно заметить, что не было найдено ни одного случая, где бы паре кривых рассеяния существенно разными частицами (NSD 1.4) соответствовало бы низкое (меньше 0.02) значение RJJ. Иными словами, часть данных МУР, содержащая информацию о структуре низкого разрешения, однозначно определяет форму частицы. Этот результат нетривиален потому, что вследствие хаотической ориентации частиц в растворе большая часть структурной информации теряется и I(s) есть изотропная, т.е. одномерная функция вектора рассеяния. Подтверждение существования однозначной связи между формой частиц и начальной частью кривой рассеяния хорошо коррелирует с возможностью восстановления формы прямыми методами анализа данных МУР [27, 38]. С другой стороны, явной корреляции между значениями линейных геометрических параметров, таких, например, как максимальный диаметр частицы, и Rfl не обнаружено,
При анализе среднеугловой части данных МУР был в первую очередь поставлен вопрос: какой интервал значений RfM соответствует кривым рассеяния белками с похожей внутренней структурой? По аналогии с процедурой, описанной в предыдущем разделе, были рассчитаны значения RfM для каждой из 1000 тестовых пар структур. Было найдено, что кривые рассеяния белками с существенно разной внутренней структурой дают значение RfM, большее 0.15, вследствие чего такие пары были исключены из дальнейшего рассмотрения. Белки, внешние части кривых рассеяния от которых относительно близки друг к другу {RfM 0.07), как правило, действительно выглядят похожими на низком разрешении, но для описания этого сходства необходимы количественные или статистические критерии, конкретный вид которых зависит от конечной задачи (получение информации для процедур восстановления формы, уточнения доменной структуры и т.д.).
Была сделана попытка найти корреляцию между RfM и вторичной структурой молекул белков используя базу данных Class Architecture Topology Homologous superfamily (CATH) [93]. CATH представляет собой иерархическую классиффикацию 18577 биомакромолекул и составляющих их доменов по их соответствию эволюционным семействам и структурным группам. Класс является верхним (первым), самым грубым уровнем классификации, который определяется только по процентному содержанию а-спиралей и -листов. Согласно САТН можно выделить три основных класса структур: образованные только сс-спиралями (класс а), только /7 листами (класс ft) и представляющие собой композицию этих двух элементов (класс a+fi). Используя это разделение, около 1500 произвольно выбранных кривых МУР нашей базы данных были разделены на три группы. Для каждой были расчитаны средние кривые: Ia(s) lp(s) и Іа+ф), которе должны были отражать особенности поведения кривых рассеяния белками, принадлежащих к определенному структурному классу. С помощью программы OLIGOMER каждый набор данных I(s) был представлен в виде линейной комбинации функций Ia(s), lp(s) и 1афу. lis) = wa -l(s)a +wr l{s)p + watp l(s)a (3.4) где ivc, wp и wa+p - соответственно, весовые коэффициенты для la(s), Ip(s) и fa p(s) в разложении кривой I(s), значения которых располагаются в интервале от 0 до 1. В большинстве случаев принадлежность белка к своему классу определяется однозначно, т.е. соответствующий весовой коэффициент разложения Wj равен 1. Но, тем не менее, обнаружено достаточное количество структур, для которых это не так (пример совпадения внешних частей кривых рассеяния двумя белками из классов а и / приведен на рис. 3.5(a)).
Очевидно, что достоверный анализ более высоких уровней классификации САТН на основе данных МУР не представляется возможным. В дополнение к использованию представления интенсивности рассеяния в виде линейной комбинации средних кривых структурных классов был использован метод сингулярного разложения (см. Главу 2). Кривые рассеяния белками одного класса были записаны в виде матрицы, число строк которых определяется числом значений вектора рассеяния, а число колонок определяется количеством наборов интенсивностей, т.е. числом структур в данном классе, для каждой из которых затем с помощью программы SVDPLOT были определены сингулярные вектора матриц кривых рассеяния каждого класса. Как известно, форма первого сингулярного вектора отражает главные геометрические особенности кривых рассеяния белками заданного класса, и поэтому было высказано предположение, что критерием принадлежности белка к определенному структурному классу может служить величина коэффициента корреляции между кривой рассеяния биомакромолекулой и первым сингулярным вектором соответствующей матрицы кривых рассеяния. Для проверки этой гипотезы были проведены численные эксперименты с несколькими десятками кривых рассеяния из базы данных DaRa, но, к сожалению, явной зависимости величины коэффициента корреляции между кривой рассеяния белком из заданного структурного класса и соответствующим первым сингулярным вектором обнаружено не было.
Для нескольких произвольно выбранных пар белков, имеющих близкие (Л/М 0.07) среднеугловые части кривых рассеяния, уровень гомологии был оценен с помощью системы сравнения структур DALI [100]. Алгоритм DALI, в частности, определяет количественный статистический критерий, обозначаемый Z, для двух макромолекулярных структур атомного разрешения. Значения Z меньше 2 отвечает определенно разным структурам; 2 Z 10 - структурам с низким уровнем гомологии; Z 10 - определенно похожим структурам. Была замечена определенная корреляция между значениями RfM и Z: для похожих структур (Z 2) RfM = 0.06 ± 0.03; для разных (Z 2 ) - RfM= 0.12 ± 0.06. В большинстве случаев внешние части данных МУР, соответствующие гомологичным структурам (Z 10), близки друг к другу (RfM 0.06) (рис.3.5(b)), но встречаются, тем не менее, структурные гомологи с Z 4, дающие RfM, превышающий 0.1.