Содержание к диссертации
Введение
1. Обзор литературы
1.1. Микрофазное расслоение 9
1.1.1 Микрофазное расслоение в расплаве блоксополимеров 9
1.1.2 Микрофазное расслоение в расплаве гребнеобразных блоксополимеров 15
1.2. Конформационно-зависимый синтез полимеров 18
1.3. Анализ биологических последовательностей 24
1.4. Постановка основных задач работы 38
2. Распознавание и сегментация двухбуквенных модельных и биологических гетеропоследовательностей
2.1. Постановка задачи 40
2.2. Сегментация гетеропоследовательности, составленной из подпоследовательностей различного состава 42
2.3. Сегментация гетеропоследовательности, составленной из подпоследовательностей с различными средними длинами блоков 45
2.4. Сегментация гетеропоследовательности, составленной из подпоследовательностей с одинаковыми составами и одинаковыми средними длинами блоков 48
2.5. Сегментация белковых последовательностей 61
3. Белковые последовательности как литературный текст
3.1. Введение 65
3.2. Метод исследования 66
3.3. Результаты 70
4. Микрофазное расслоение в гребнеобразных диблоксополимерах
4.1 .Сферические мицеллы 80
4.2.Ламеллярная структура 84
5. Дизайн полимерных материалов с заданным масштабом микронеоднородностей
5.1. Постановка задачи 87
5.2. Результаты 88
Основные результаты и выводы диссертации 97
- Конформационно-зависимый синтез полимеров
- Постановка основных задач работы
- Сегментация гетеропоследовательности, составленной из подпоследовательностей с одинаковыми составами и одинаковыми средними длинами блоков
- Метод исследования
Введение к работе
Актуальность работы.
Последние десять лет в научном мире можно без сомнения назвать временем нанотехнологий и наноматериалов. Для создания материалов, содержащих наноразмерные домены, используются блоксополимеры, где отталкивание различных блоков приводит к самоорганизации макромолекул в микроструктуры с различной морфологией (сферы, цилиндры, ламели) размерами от 10 до 1000 А. Микрофазным расслоением в таких системах можно эффективно управлять, варьируя длины соответствующих блоков в последовательности. В последнее время для создания функциональных полимерных материалов используют вместо обычных блоксополимеров полимеры более сложной архитектуры, такие как гребнеобразные полимеры или сополимеры, состоящие из гребнеобразного и линейного блоков. Другим эффективным способом управления микрофазным расслоением в расплавах сополимеров может являться использование сополимеров со специфическими последовательностями мономерных звеньев, при которых обеспечивается стабильность микрофазного расслоения в заданном интервале физических параметров системы.
Свойства гетерополимерных молекул - как синтетических, так и биологических - во многом определяются распределением мономерных звеньев вдоль по последовательности, их первичной структурой. На данный момент самыми сложными по своим функциональным свойствам являются биологические полимеры (ДНК, РНК, белки). При анализе первичной структуры таких макромолекул они часто представляются в виде двухбуквенных последовательностей путем соответствующей перекодировки. В случае белков все аминокислотные остатки разбиваются к на две группы - гидрофобные и гидрофильные, и белковая макромолекула представляется как сополимер из двух сортов мономерных звеньев. Такое представление позволяет выявить основные закономерности в чередовании групп данного сорта и сделать выводы о возможной пространственной структуре биополимера и функциях закодированных в его последовательности, что, несомненно, важно как для понимания процессов жизнедеятельности клетки, так и для возможного воспроизведения этих механизмов в искусственных полимерных системах.
Целью данной диссертационной работы был поиск оптимальных процедур, позволяющих эффективно анализировать сложные последовательности и путем варьирования архитектуры и последовательности конструировать полимерные материалы с заданным масштабом микронеоднородностей, стабильных в широком интервале физических параметров системы.
На защиту выносятся следующие основные положения диссертационной работы:
1. Предложена эффективная методика сегментации и идентификации двухбуквенных АВ последовательностей с различной статистикой распределения звеньев А и В. Показано, что сегментационная функция случайной последовательности является константой, зависящей от состава; сегментационная функция блочного сополимера является осциллирующей функцией, а период осцилляции определяется средней длиной блока; сегментационная функция белковоподобного сополимера при малых к растет, а затем выходит на плато максимальные значения которой ложатся на прямую, зависящую от состава сополимера.
2. Белковые последовательности могут быть представлены как тексты, написанные на «белковом» языке. В них можно выделять повторяющиеся мотивы («слова») различных длин. Максимальные длины «слов» различны для белков различных классов (глобулярные, мембранные и фибриллярные белки).
3. Характерный период структуры, возникающей при микрофазном расслоении в расплаве диблоксополимеров, состоящих из гребнеобразного и линейного блоков, сильно несовместимых между собой, в широкой области изменения параметров системы определяется параметрами гребнеобразного блока и практически не зависит от геометрических параметров линейного блока. При этом гребнеобразный блок достаточно сильно вытянут (степень его растяжения тем больше, чем выше плотность пришивки и длина боковых цепей), что приводит к возникновению режима сверхсильной сегрегации, когда период структуры линейно зависит от длины остова гребнеобразного блока.
4. Предложен дизайн полимерных материалов, с заданным масштабом микронеоднородностей, стабильных в заданном интервале температур. В ходе эволюционной процедуры, обнаружена полимерная система, масштаб микронеоднородностей которой превышает масштаб микронеоднородностей расплава диблоксополимеров.
Научная новизна работы определяется прежде всего тем, что большинство рассмотренных задач исследовались впервые. В результате изучения этих задач было предсказано существование ряда новых эффектов, некоторые из которых уже обнаружены экспериментально. Методы анализа первичной структуры биологических и модельных последовательностей, предложенные в данной диссертационной работе, нигде ранее не использовались и поэтому позволяют взглянуть на свойства биологических последовательностей с принципиально новой точки зрения.
Практическая ценность работы обусловлена тем, что полученные результаты найдут применение в самых различных областях науки. В нанотехнологии для создания материалов с заданной микроструктурой. В биоинформатике - в качестве новых методов сегментации и идентификации биологических последовательностей.
Структура и объем работы. Диссертация состоит из введения, пяти глав, выводов и списка цитируемой литературы из 87 наименований. Диссертация содержит 108 страниц, включая рисунки, оглавление и список литературы.
Апробация работы. Основные результаты диссертации докладывались на пяти студенческих конференциях, проводимых «Учебно-научным центром по химии, физики полимеров и тонких органических пленок», а также на восьми международных конференциях и симпозиумах: Конференция студентов и аспирантов по химии и физике полимеров и тонких органических пленок, Солнечногорск, 2004; «Modern Trends in Organoelement and Polymer Chemistry» International Conference
Dedicated to 50 Anniversary of A.N. Nesmeyanov Institute of Organoelement Compounds, Russian Academy of Sciences, Москва, 2004; Третья Всероссийская Каргинская конференция «Полимеры - 2004», Москва, 2004; Moscow Conference on Computational Molecular Biology, Москва, 2003; Конференция студентов и аспирантов по химии и физике полимеров и тонких органических пленок, Тверь, 2003; Международная конференция студентов, аспирантов и молодых ученых по фундаментальным наукам «Ломоносов-2003», секция физика, Москва, 2003; 4th International Conference «Molecular Order and Mobility in Polymer Systems», Санкт-Петербург, 2002; Конференция студентов и аспирантов по химии и физике полимеров и тонких органических пленок, Дубна, 2002; Российско-германский семинар «Computer Simulation of Macromolecular Systems: Dense States of Semiflexible Macromolecules and Copolymers», Москва, 2002;
Конференция студентов и аспирантов по химии и физике полимеров и тонких органических пленок, Пущино, 2001; Российско-германская $ конференция «Self-Assembly Processes in Complex Macromolecular Systems
in Solutions and at Interfaces», Москва, 2001; Europolymer Congress, Эйндховен, 2001; Конференция студентов и аспирантов по химии и физике полимеров и тонких органических пленок, Санкт-Петербург, 2000.
Публикации. По результатам данной диссертационной работы опубликованы три статьи в реферируемых журналах (двух международных и одном российском).
Работа имеет следующую структуру.
Первая глава диссертации содержит обзор литературы по тематике работы и состоит из трех частей. Первая часть посвящена изложению основных теоретических моделей, используемых при описании микрофазного расслоения в расплавах блоксополимеров. Приводятся результаты экспериментов, имеющих отношение к рассматриваемым явлениям. Во второй части освещается метод конформационно-зависимого синтеза первичной последовательности сополимеров, приводятся результаты теоретического исследования таких макромолекул. Третья часть посвящена изложению основных численных методов анализа первичных последовательностей биологических полимеров. Приводятся методы анализа как двухбуквенных, так и многобуквенных последовательностей.
Главы 2, 3, 4 и 5 содержат оригинальные результаты.
Вторая глава посвящена поиску методов сегментации и распознавания модельных и биологических двухбуквенных сополимеров.
В третьей главе разрабатывается лингвистический анализ первичной последовательности биологических и текстовых последовательностей и предпринимается попытка построения белкового «языка».
В четвертой главе излагается теория микрофазного расслоения в расплавах диблоксополимеров, состоящих из гребнеобразного и линейного блоков, сильно несовместимых между собой.
Пятая глава посвящена конструированию последовательностей сополимеров, образующих в расплавах микронеоднородности заданного масштаба, стабильные в заданном температурном интервале.
В работе принята двойная нумерация параграфов и формул, причем первая цифра соответствует номеру главы.
Конформационно-зависимый синтез полимеров
Несколько лет назад в работе был предложен новый метод для создания сополимеров со специальными свойствами - так называемый конформационно-зависимый синтез первичной последовательности сополимера. Этот метод направлен не на изучение процессов сворачивания белков, а на создание гетерополимеров, обладающих некоторыми простейшими свойствами белков, в частности свойством растворимости белковых глобул. Процедура приготовления белковоподобных сополимеров может быть описана следующим алгоритмом. На первом этапе из случайного гомополимерного клубка формируется плотная глобула (рис. 1.7 а). Затем осуществляется процедура окраски: все звенья в данной глобуле делятся на 2 сорта: сорт В - гидрофобные звенья, лежащие в ядре глобулы и имеющие меньше всего контактов с растворителем, и сорт А - полярные, лежащие на поверхности глобулы и имеющие наибольшее количество контактов с растворителем (рис. 1.7 Ь). Полученная первичная последовательность фиксируется и проводятся исследования полученных АВ - сополимеров (рис. 1.7 с). Такие /4/?-сополимеры были названы белковоподобными, поскольку они моделируют одно из основных свойств глобулярных белков -растворимость в основном состоянии. Поведение таких полимеров сравнивалось с поведением случайного и случайно-блочного сополимера, имеющего первичную структуру, определяемую распределением Пуассона (значение средней длины блока было эквивалентно аналогичному значению у белковоподобного сополимера). Было показано , что переход клубок-глобула в белковоподобных сополимерах происходит при больших температурах и приводит к формированию более плотных глобул, чем в случайных и блочно-случайных сополимерах. При этом и распределения по длинам блоков у белковоподобного и случайно-блочного сополимеров отличаются друг от друга. Так в белковоподобном сополимере можно встретить всевозможные значения длин блоков, в то время как в случайно-блочном сополимере четко наблюдается максимум в распределении по длинам блоков (максимум соответствует средней длине блока). На рисунке 1.8 показаны типичные конформаций глобул исследовавшихся сополимеров. Хорошо видно, что белковоподобная глобула наименее всего подвержена выпадению в осадок: гидрофобное ядро плотное и хорошо сформировавшееся, в то время как гидрофильные звенья формируют равномерную и рыхлую опушку.
Эксперименты по реализации схемы конформационно-зависимого синтеза в лаборатории 28 32 подтверждают предположения компьютерного моделирования f Таким образом, свойства белковоподобных сополимеров заметно отличаются от свойств случайных и случайно-блочных сополимеров и, поскольку ничем кроме последовательностей они не отличаются, отличия заключены именно в структуре последовательности. Обнаружить такие отличия позволяет корреляционный анализ, аналогичный тому, который использовался при анализе последовательностей ДНК33. В простейшем случае такой анализ может быть описан как нахождение дисперсии среднего числа частиц определенного сорта в окне длины L (усреднение проводится вдоль всей последовательности): п1 = ИЫ)-(и )Ы), (ЇЛО) i,j=k здесь исследуемая последовательность АВАВАА... представляется в виде последовательности чисел щ (w,-= 1, если звено гидрофобное и щ= —1, если звено гидрофильное). Для абсолютно случайной последовательности значение Di должно изменятся с длиной окна L как Ь л. Зависимость D(L) La с а 1/2 можно интерпретировать как существование дальнодействующих корреляций. И такие дальнодействующие корреляции действительно были обнаружены в белковоподобных последовательностях. На рисунке 1.9 показаны зависимости D(L) для вышеописанных сополимеров. Видно, что D(L) для случайной и случайно-блочной последовательностей имеют асимптотику Lv\ в то время как D(L) для белковоподобной последовательности не следует этой зависимости даже при значительных длинах L. К настоящему моменту метод конформационно-зависимого синтеза реализован также для «настроенных на адсорбцию» сополимеров, ведутся работы по исследованию «мембрано-подобных» и «ферменто-подобных» сополимеров .В частности большое количество работ посвящено исследованию адсорбции сополимеров на различных поверхностях35 38. Интерес к данной проблеме вызван многочисленными приложениями в биологии, химии и технике. В биологии является весьма типичной ситуация, когда белок распознает специфический узор (паттерн) на мембране и прикрепляется к нему. Раскрытие механизма такого распознавания представляет большой практический интерес для создания технологий разделения материалов, устранения загрязняющих примесей и других применений. Задача распознавания может быть поставлена следующим образом. Как необходимо сконструировать первичную последовательность сополимера, чтобы обеспечить адсорбцию последнего на заданном паттерне, расположенном на поверхности. Исследования эти проводятся как теоретически39"41, так и численно40"44. Рисунок 1.10. Блуждающая полимерная цепь в материнской глобуле. Несколько лет назад предложен аналитический подход для описания конформационно-зависимого синтеза и возникающих при этом корреляций в последовательностях 45"46. Суть подхода заключается в рассмотрении самой природы получающихся белковоподобных последовательностей, т.е. рассмотрении конформации материнской глобулы. Именно эта конформация определяет первичную структуру сополимера.
Как известно47, статистика полимерной цепи в плотной глобуле, а именно такая конформация берется за материнскую, - гауссова. Следовательно, все статистические свойства, включая корреляции в первичной структуре, вызванные процедурой конформационно-зависимого синтеза, могут быть получены при решении уравнения диффузии с определенными граничными условиями. Другими словами, можно мысленно разделить материнскую глобулу на две области: внутреннюю (сфера с радиусом R , R R) и внешнюю (остальная часть глобулы) и представить процедуру синтеза как случайное блуждание, причем гидрофобная часть цепи определяется «блужданием» по внутренней части глобулы, а гидрофильная по внешней (рис. 1.10). Такая схема построения называется схемой «полета Леви», а дальнодействующие корреляции в первичной структуре белковоподобного сополимера описываются статистикой «полета Леви». Видно, что распределения вероятностей Рл(к) и Рв(к) отличаются друг от друга и зависят от структурных параметров глобулы RnR . Можно ожидать, что распределение гидрофильных и гидрофобных звеньев в глобулярных белках, подчиняется статистике «полета Леви». Раз так, то представляется важным найти характеристики, позволяющие с определенностью выделять такие участки в реальных биологических последовательностях. 1.3. Анализ биологических последовательностей. К настоящему времени расшифрованы последовательности ДНК многих организмов, получено большое количество данных о последовательностях многих тысяч белков. Анализ полученных данных позволит ответить на многие накопившиеся вопросы, как биологии, так и биофизики с биохимией. Наиболее очевидной характеристикой биологических последовательностей является их состав — нуклеотидный в случае нуклеиновых кислот и аминокислотный в случае белков; и именно анализу состава последовательностей были посвящены первые работы48"49. В результате было показано, что не только ДНК различных организмов отличаются по составу, но что и сама по себе макромолекула ДНК неоднородна по своему составу: состав экзонов (кодирующих белок участков) отличается от состава интронов (некодирующих белок участков) и участков между генами, которые в свою очередь отличны между собой50. Позже было показано, что размещение нуклеотидов вдоль цепи не является случайным. Так, к примеру, было показано, что вероятности встречаемости пар соседних оснований в ДНК не являются независимыми в том смысле, что вероятность найти в последовательности определенную пару оснований не равна произведению частот (вероятностей) этих самых оснований в данной последовательности.
Постановка основных задач работы
В предыдущих параграфах мы подробно рассмотрели методы анализа биологических, и символьных последовательностей, познакомились с теорией конформационно-зависимого синтеза последовательностей, а также с теоретическими и численными методами анализа микродоменной структуры расплава наиболее простых (с точки зрения первичной структуры последовательности) последовательностей -блоксополимеров. На их основе сформулируем основные задачи работы. 1. Появление быстрых методов секвенирования последовательностей ДНК (в конце 70-х годов) выявило большое количество задач, которые нельзя было решить обычными методами биологии. В частности остро встала проблема сегментации последовательностей на различные участки и идентификация этих участков (например, на кодирующие и некодирующие белок участки). Большинство раннее предложенных методов качественно решали поставленную задачу при разбиении последовательности на участки с различным составом. В нашей работе мы будем заниматься поиском процедуры, позволяющей сегментировать модельные и биологические последовательности, на подпоследовательности с различным составом, средней длиной блока и статистикой распределения мономерных звеньев вдоль по последовательности. 2. На наш взгляд статистический анализ первичных последовательностей биологических полимеров не дает полной информации об исследуемом объекте. Поэтому представляется важным разработать алгоритм анализа первичной структуры биополимеров с лексической точки зрения. А именно рассмотреть последовательность как «текст» и проанализировать его по частоте встречаемости «слов». 3. Четвертая глава данной диссертационной работы будет посвящена теоретическому исследованию явления сверхсильной сегрегации, возникающей при микрофазном расслоении в расплавах блоксополимеров, состоящих из линейного и гребнеобразного блоков. 4. Пятая глава данной диссертационной работы будет посвящена разработке метода конструирования полимерных материалов с уникальными характеристиками микродоменной структуры, стабильными в заданном температурном интервале. 39 Рассмотрим гетерополимер, состоящий из мономерных звеньев двух сортов А и В. Состав участка цепи длиной L звеньев характеризуется долей fL мономерных звеньев А в этом участке цепи: f=b. = —b—t (2.1) где LA И LB - полное число мономерных звеньев сорта А и В в последовательности длины Соответственно, доля мономерных звеньев сорта В: \-fi- Ясно, что при одинаковых составах в гетер ополимерных последовательностях звенья А и В могут быть распределены различными способами. Это может быть случайная (бернуллиевская), регулярная, случайно-блочная (пуассоновская) или какая-нибудь более сложная статистика распределения мономерных звеньев в последовательности (например, статистика «полета Леви», распределение которому подчиняются длины блоков в белковоподобном сополимере).
При случайном распределении мономерные А и В звенья распределены вдоль полимерной последовательности независимо с вероятностью определяемой составом полимера, так вероятность встретить мономерное звено А равна / а вероятность встретить звено В соответственно равна 1- . В случае регулярного сополимера звенья А и В размещаются блоками, а длины блоков А и В по изменяются и постоянны вдоль по цепи. При случайно-блочном распределении и распределении «полета Леви» А и В мономеры также собираются в блоки, состоящие из однотипных звеньев, но их длины не постоянны, а подчиняются соответствующим законам распределения. Так в случайно-блочном сополимере длина блока А пА распределена в соответствии с законом Пуассона: где пл - средняя длина блока А. Распределение длин А и В блоков в белковоподобной последовательности подчиняется формулам 1.11 и 1.12, соответственно. Предположим теперь, что гетерополимерная цепь состоит из участков (будем называть их подпоследовательностями), отличающихся между собой по составу и/или по статистическим свойствам. Основной целью исследований является поиск процедуры, позволяющей с максимальной точностью определять границу между этими подпоследовательностями, а также распознавать (идентифицировать) полученные после сегментации участки. Как отмечалось, решение этой задачи чрезвычайно важно в рамках анализа первичных последовательностей биологических макромолекул, а также поиска новых методов распознавания, защиты и передачи информации, как в биологических, так и в небиологических объектах. Для того, чтобы применить численные методы анализа последовательностей, исследуемые нами гетеропоследовательности звеньев А и В, перекодируем в численные последовательности {и,} согласно правилу: Такая перекодировка значительно упрощает математический анализ последовательностей. Скажем, доля мономерных звеньев A fi в гетерополимерной цепи из / звеньев, вычисляется в этих переменных как: где д(х) - дельта-функция: Определение границы между подпоследовательностями будем проводить различными методами: 1) по изменению текущего состава последовательности; 2) по изменению средней длины блока из мономерных звеньев одного сорта; 3) по изменению вида сегментационной функции; 4) методом поиска максимума функции дивергенции Йенсона- Шеннона. 2.2. Сегментация гетеропоследовательности, составленной из подпоследовательностей различного состава. Для начала рассмотрим гетерополимер (гетеропоследовательность), состоящий из двух подпоследовательностей одинаковой длины L. Пусть средний состав подпоследовательности 1: f[, а средний состав х- подпоследовательности 2: ft fl- Можно предположить, что границу между подпоследовательностями 1 и 2 можно установить, исследуя должным образом текущий (локальный) состав суммарной последовательности. Определим величину /, (х) (будем называть ее локальным составом последовательности в точке х) как состав участка цепи длиной / мономерных звеньев, начинающийся со звена х и заканчивающийся звеном х+/-1:
Сегментация гетеропоследовательности, составленной из подпоследовательностей с одинаковыми составами и одинаковыми средними длинами блоков
Рассмотрим гетер опо ел едовательность, состоящую из двух подпоследовательностей, причем и составы, и средние длины блоков у обеих подпоследовательностей равны (fl=ftz и плх = п/ ), а статистика распределения звеньев различна. Один из возможных случаев, когда статистика распределения звеньев в начальном участке подчиняется статистике «полета Леви», а в конечном - статистике Пуассона. Мы «синтезировали» такую гетеропоследовательность. Обе ее подпоследовательности длины L=10000 содержат одинаковые доли звеньев А и В (fl = fl =0.5,). Причем первая является белковоподобной последовательностью (Я=15, R /Я=0.8) со средней длиной блока л/ = 22, а вторая случайно-блочной с тем же значением средней длины блока ( п/ =22). Ясно, что методы, описанные в двух предыдущих пунктах, здесь бесполезны. При сегментации гетеропоследовательности в этом случае необходимо использовать характеристики, чувствительные к распределениям по длинам блоков Р(пА)(рис.2.4). Одна из таких характеристик - сегментационная функция. Нами эта функция была предложена впервые: здесь fi - доля звеньев А на участке цепи длиной L, a PiJ\k) - это вероятность того, что наугад выбранный отрезок гетеропоследовательности длиной к начинается звеном / и заканчивается звеном у. В нашем случае звенья г и у принимают значения 1 или -1. Таким образом Р++- это вероятность того, что любой сегмент длины к имеет на своих концах звенья типа и=+1, а Р" - это вероятность того, что отрезок имеет на концах м=-1и т.д. На рисунках 2.5-2.7 представлены зависимости S(k,L) для случайных (рис. 2.5), случайно-блочных (рис. 2.6) и белковоподобных (рис. 2.7) последовательностей. Видно, что по внешнему виду сегментационной функции S(k,L) можно судить о типе последовательности. В случае случайного сополимера функция S(k,L) является константой, зависящей от его состава f\. Значение функции S(k,L) максимально для сополимера, содержащего одинаковые количества звеньев А и В (//=0.5), оно уменьшается по мере отклонения состава от равновероятного состава/?=0.5.
Причем выполняется соотношение: S(k,L)\h=S{k,L\_fL. (2.10) Легко получить аналитическое выражение для функции S(k,L) случайной последовательности. Действительно, поскольку распределение звеньев по сортам здесь независимы, то вероятность того, что отрезок любой длины к такой последовательности начинается и кончается звеном + не зависит от и равна /,2, вероятность найти в такой последовательности отрезок (-/-) - это (і-/,)2, а отрезки (-/+) и (+/-) -О "//)// Подставив эти вероятности в формулу (2.9), после простых преобразований мы получим следующее выражение: При//=0.5 функция максимальна S(k,L) = 1п2, а при fi=\ или //=0 функция минимальна S(k,L) = Сегментационная функция S(k,L) пуассоновской последовательности является осциллирующей функцией, максимальные значения которой ложатся на прямую, положение которой зависит от состава сополимера, а период осцилляции определяется значением средней длиной блока. Легко показать, что сегментационная функция имеет осцилляционный тип для любой последовательности, имеющей мультиблочную структуру. Покажем, что циклоидного (один из видов осцилляционной функции) типа является сегментационная функция последовательности, имеющей регулярную (блочную) структуру. Рассмотрим регулярный блоксополимер с фиксированными длинами пА и пв - Л и В блоков. Для определенности будем считать, что длина Л блока больше длины блока В: пА пв. Также будем полагать, что мы исследуем достаточно длинную последовательность или введем циклические граничные условия, чтобы не учитывать концевые эффекты. Выберем в этой последовательности произвольным образом отрезок длины к. Вероятность, что этот отрезок займет положение (+/+), (-/-), (+/-) , (-/+) - зависит от длины этого отрезка к и соотношения длин блоков ПА и пв. Существует три характерных режима. При k = 0 и к = пА+пв сегментационная функция принимает минимальное значение iS( ,Z,)mi„=0. А в интервалах значений пв + (пл +nR)i к пА+ (пА + пв)і функцияS(k,L) - константа. Величина S(k,L) в этой области уменьшается по мере уменьшении разности ПА-ПВ, и становится равной нулю при равных длинах разноименных блоков в регулярной последовательности {пА=пв) (рис. 2.9). В этом случае функция S(k,L) - периодическая функция с периодом длины блока. Таким образом, видим, что для последовательностей с постоянной длиной блоков функция S(k,L) периодическая. В случае же случайно-блочной последовательности, с блоками различной длины, сегментационная функция S(k,L) имеет осцилляционный вид постепенно выходящий на асимптотику.
В случае белковоподобной последовательности сегментационная функция S{k,L) достаточно резко растет при малых к, а затем выходит на постоянное значение (соответствующее значению S(k,L) случайного сополимера такого же состава). Скорость роста зависит от величины R, которая определяет среднюю длину блока. Значения S(k,L) на плато зависят только от состава мономерных звеньев в последовательности и совпадают со значением сегментационной функции случайной последовательности того же состава. При этом заметим, что сегментационная функция белковоподобной последовательности выходит на плато уже при сравнительно небольших значениях к (начиная с к=10). Этот результат соответствует тому, что в белковоподобной последовательности присутствует большое число коротких блоков, а само распределение длин блоков очень широкое, что и позволяет говорить о квазислучайном распределении гидрофильных и гидрофобных групп в таких сополимерах. Применим только что описанную методику, для сегментации сложной последовательности и распознавания участков, из которых она состоит. Рассмотрим последовательность, составленную из трех участков: случайного, случайно-блочного и белковоподобного. Все подпоследовательности (длины L) содержат одинаковое число А и В мономерных звеньев, а средние длины блоков в случайно-блочной и в белковоподобной последовательностях равны друг другу, т.е.: fl = fl = fl =-5 и (пА2) = (П/) = Определим для удобства более сложную сегментационную функцию S(k,l,x) в окне длины /, скользящего вдоль по последовательности, и характеризуемого положением начала окна х в последовательности. На рисунке 2.10 показана зависимость функции S(k,l,x) от к и положения окна х длины /= 3000 вдоль по последовательности. Визуальный анализ сегментационной функции позволяет легко отличить участки последовательности с различной статистикой. Так, горизонтальное плато (х=1-10000) соответствует случайной последовательности. Участок с волновым поведением функции S(k,l,x) (х= 10000-20000) соответствует последовательности с пуассоновской статистикой распределения мономерных звеньев. Вид функции S(k,l,x) на участке д:=20000-30000 показывает, что это белковоподобная последовательность. В тоже время хочется отметить, что точность сегментации последовательности методом, использующим вычисление сегментационной функции, не достаточно высока - на рисунке хорошо видна размытость перехода от одной статистики функции к другой.
Метод исследования
Рассмотрим некую произвольную текстовую последовательность длины N букв из Q буквенного алфавита. Любую связанную подпоследовательность длины п из рассматриваемой последовательности назовем «словом», если она встречается в тексте хотя бы два раза. Для белковых последовательностей Q=20; в английском языке Q=26. В случае белка текстовой последовательностью является собственно первичная структура белка. Из реального текста текстовая последовательность получается путем вычеркивания всех знаков препинания и пробелов между словами. Целью нашего анализа текстовых последовательностей является поиск процедуры, правильно расставляющей в тексте пробелы и разбивающей ее на «слова» (далее просто слова). Мы не можем судить, насколько правильно будет разбиваться на слова белковый текст. А вот для реальных текстов разбиение на слова будет считаться успешным в случае приведения последовательности к виду, максимально приближенному к тому, который имел оригинальный текст до слияния слов, его составляющих, в неструктурированную текстовую последовательность. Разбиение последовательности (текста) на слова может быть произведено различными способами. Первый наивный метод, протестированный нами, как наиболее простой - это метод последовательного выделения слов из текста, начиная с самых длинных. В тексте находятся самые длинные повторяющиеся последовательности (как правило, их две). Эти последовательности считаются словами, они выделяются. Далее анализируется оставшийся текст (или вернее оставшиеся участки текста), в котором находят более короткие повторяющиеся последовательности - слова. Отметим, что при этом полученные после выделения слов участки текста рассматриваются как отдельные значимые структурные единицы: после выделения слов они не объединяются в новый текст и все возможные слова в них сравниваются между собой. Более сложный метод заключается в первоначальном определении всех і возможных слов различных длин п и последовательностей букв в тексте; вычислении частоты встречаемости каждого слова р „ и его веса w/, и последовательном выделении из текста слов, имеющих наибольший текущий вес. Мы использовали два определения веса слова: простой вес слова, определенный нами как произведение частоты встречаемости слова на его длину: Wj (п, і) = рпп; и квадратичный вес, равный произведению частоты встречаемости слова на квадрат его длины: w2(n,i) = р „п2. Ясно, что полное число / возможных слов длины п увеличивается с ростом п и зависит от числа букв в алфавите как: /(и) = Q", что приводит к значительному усложнению алгоритма с ростом п при учете всех возможных длин слова.
Процедуры разбиения текста были выполнены в предположении, что самые короткие возможные значимые слова состоят из трех букв. Используя эти методы, мы провели разбиение английских текстов (число букв в английском языке 26, что приблизительно равно 20, числу букв в белковых последовательностях). Нами были проанализированы тексты научных статей и книг, художественные тексты и новостные тексты, взятые из газет и журналов. Тексты были различной тематики и содержали от 2500 до 3000 знаков. Всего было проанализировано 16 различных текстов. Для того чтобы оценить успешность разделения текста на слова мы в каждом из случаев вычисляли долю правильно выделенных слов. При этом мы считали, что слово/словосочетание выделено правильно, если оно не более чем на одну букву отличается от слова или словосочетания, действительно существующего в английском языке. Наши вычисления показали, что наиболее эффективный метод выделения слов в последовательностях - метод с квадратичным весом слова. Наивный метод на первых итерациях выделяет слова вместе с предлогами и артиклями и не позволяет выделить как отдельное слово, которое не только было частью длинного словосочетания, но и встречается несколько раз в тексте само по себе; метод с учетом простого веса слова выделяет в качестве отдельных слов часто встречающиеся суффиксы и приставки. Метод разбиения текста с учетом квадратичного веса слов позволяет правильно выделить в тексте практически все важные повторяющиеся слова и словосочетания. В зависимости от длины и содержания текста таких слов было от 20 до 50; при этом успешность выделения слов для изученных нами текстов была достаточно велика: она составила от 76 % до 88 % (рис. 3.1). Подчеркнем, что разбиение текста на слова было произведено самым формальным образом: нами не были учтены особенности грамматики и лексики английского языка. Отметим также, что доля правильно выделенных слов, вообще говоря, зависит от объема анализируемого текста. Используя процедуру выделения слов с учетом их квадратичного веса, мы проанализировали ряд белковых последовательностей, данные о которых нами были взяты из базы данных Genbank fhttp://www.ncbi.nlm.nih.gov/). В таблицах 3.1 - 3.4 приведены примеры разбиения белков на слова. Таблицы состоят из четырех колонок. В первой колонке приведены собственно выделенные слова, во второй - указана их длина я, в третьей и четвертой колонках таблицы даны частота встречаемости р п и квадратичный вес w2, соответственно. Слова размещены в таблице по мере уменьшения их веса. Приведены примеры для фибриллярных (эластин и спидроин; таблицы 3.1-3.2), мембранного (цитохром с охидаза, таблица. 3.3) и глобулярного (тироглобулин, таблица 3.4) белков. Видно, что в белковой последовательности эластина могут быть выделены несколько пар весьма больших слов (или словосочетаний) по 9 -20 букв, здесь трижды встретилось довольно большое слово, из 9 букв. Более короткие слова встречались в этой последовательности чаще. Четырехбуквенные слова «pgvg» и «pgva» были включены в последовательность, соответственно, семь и четыре раза, а трехбуквенные слова «gag» и «pgg» - по 17 и 16 раз, соответственно. Последовательность белка «спидроин» содержит еще более длинные слова, причем многие из них повторяются более чем два раза. Так в последовательности, проанализированной нами, четырежды встречается слово из 30 букв, дважды тридцатисемибуквенное слово, пять раз повторяется слово из семнадцати букв, четырежды слово из восьми букв, по три раза - из 5 и 6.