Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Изучение точек разладки триплетной периодичности последовательностей днк, кодирующих белки Суворова Юлия Максимовна

Изучение точек разладки триплетной периодичности последовательностей днк, кодирующих белки
<
Изучение точек разладки триплетной периодичности последовательностей днк, кодирующих белки Изучение точек разладки триплетной периодичности последовательностей днк, кодирующих белки Изучение точек разладки триплетной периодичности последовательностей днк, кодирующих белки Изучение точек разладки триплетной периодичности последовательностей днк, кодирующих белки Изучение точек разладки триплетной периодичности последовательностей днк, кодирующих белки Изучение точек разладки триплетной периодичности последовательностей днк, кодирующих белки Изучение точек разладки триплетной периодичности последовательностей днк, кодирующих белки Изучение точек разладки триплетной периодичности последовательностей днк, кодирующих белки Изучение точек разладки триплетной периодичности последовательностей днк, кодирующих белки Изучение точек разладки триплетной периодичности последовательностей днк, кодирующих белки Изучение точек разладки триплетной периодичности последовательностей днк, кодирующих белки Изучение точек разладки триплетной периодичности последовательностей днк, кодирующих белки Изучение точек разладки триплетной периодичности последовательностей днк, кодирующих белки Изучение точек разладки триплетной периодичности последовательностей днк, кодирующих белки Изучение точек разладки триплетной периодичности последовательностей днк, кодирующих белки
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Суворова Юлия Максимовна. Изучение точек разладки триплетной периодичности последовательностей днк, кодирующих белки: диссертация ... кандидата биологических наук: 03.01.09 / Суворова Юлия Максимовна;[Место защиты: Научно-исследовательский институт биомедицинской химии имени В.Н. Ореховича - ФГБНУ], 2015.- 135 с.

Содержание к диссертации

Введение

Глава 1. Обзор литературы 20

1.1 Определения спектра научных работ для обзора 20

1.2 Краткий обзор задач и методов компьютерного анализа последовательностей ДНК 20

1.2.1 Методы анализа последовательностей, не основанные на

выравниваниях 22

1.3 Определение периодических последовательностей 23

1.4 Методы исследования триплетной периодичности 27

1.5 Гипотезы, объясняющие свойство триплетной периодичности... 41

1.6 Применение свойства триплетной периодичности в программном обеспечении для анализа нуклеотидных последовательностей 44

1.7 Образование гибридных генов в результате объединения или вставки кодирующих последовательностях генов 46

1.8. Методы исследования гибридных генов 1.9. Математические методы, использующие точки разладки для

изучения биологических последовательностей 49

1.10. Выводы из литературного обзора 54

Глава 2. Материалы и методы 56

2.1. Поиск точек разладки триплетной периодичности в нуклеотидных последовательностях 56

2.1.1. Математические принципы, лежащие в основе алгоритмов поиска точек разладки 56

2.1.2. Мера различия частотных матриц 58

2.1.3. Создание искусственных последовательностей 60

2.1.4. Уровень значимости меры различия частотных матриц 62

2.1.5. Алгоритм поиска точек разладки 63

2.2. Поиск парных точек разладки в нуклеотидных последовательностях 65

2.2.1. Определение парных точек разладки 65

2.2.2. Мера подобия матриц триплетной периодичности 67

2.2.3. Поиск парных точек разладки в последовательности 68

2.2.4. Разделение случаев одинарных и парных точек разладки 71

2.2.5. Выбор уровня значимости для поиска парных точек разладки 71

2.2.6. Алгоритм поиска парных точек разладки 72

2.2.7. Построение контурных диаграмм различия триплетной периодичности 74

2.3. Изучение однородности триплетной периодичностью 74

2.3.1. Модели и гипотезы распределения триплетной периодичности 75

2.3.2. Исследование распределения триплетной периодичностью внутри генома 77

2.3.3. Распределение различий триплетной периодичностью между геномами 78

2.3.4. Изучение геномной специфичности триплетной периодичности... 2.4. Программная реализация используемых алгоритмов 80

Глава 3. Результаты 81

3.1. Результаты поиска точек разладки триплетной периодичности 81

3.1.1. Результаты анализа искусственных последовательностей 82

3.1.2. Результаты обработки банка данных KEGG 84

3.1.3. Поиск подобий, подтверждающих склейку, в последовательностях с точками разладки 87

3.1.4. Изучение влияния аминокислотных повторов на точки разладки триплетной периодичности 89

3.1.5. Исключение из результатов высокогомологичных последовательностей 91

3.1.6. Анализ функций кодируемых белков 92

3.1.7. Сравнение с границами доменов и известными склейками 93

3.2. Результаты поиска парных точек разладки триплетной

периодичности 98

3.2.1. Результаты обработки искусственных последовательностей 98

3.2.2. Результат поиска парных и одинарных точек разладки 100

3.2.3. Анализ последовательностей с парными точками разладки 103

3.3. Распределение триплетной периодичности бактериальных геномов 107

3.3.1. Распределение триплетной периодичности внутри геномов... 108

3.3.2. Распределение триплетной периодичности между геномами 110

3.3.3. Попарная классификация геномов по типу триплетной периодичности 112

3.3.4. Обсуждение результатов изучения распределение триплетной периодичности бактериальных геномов 116

Заключение 121

Выводы 122

Список литературы

Введение к работе

Актуальность проблемы

Вопрос о происхождении современных генов и белков исследуется уже много лет и является одним из фундаментальных вопросов. В процессе эволюции геном в целом и кодирующие последовательности в частности подвергаются различным типам мутаций: таким как вставки и делеции (как отдельных символов, так и довольно протяженных участков), а также замены одних символов на другие. В случае, если изменения затрагивают кодирующие участки, это может привести к различным исходам: мутация может оказаться незначительной и не изменит функцию белка; или напротив мутация может оказаться летальной для данного гена - белок окажется неспособным к выполнению своей функции; возникновение стоп-кодонов в последовательности приведет к образованию, так называемых, псевдогенов. И наконец - наиболее интересный вариант - появление в результате мутации белка с новыми свойствами.

Считается что, на определенном этапе эволюции дальнейшее усложнение происходит не за счет создания новых, а за счет комбинации более мелких существующих элементов. Различные виды хромосомных перестроек могут приводить к образованию так называемых гибридных генов, состоящих из частей ранее независимых генов. Гибридные гены могут образоваться в результате объединения (склейки) двух ранее независимых генов или их частей (далее будем называть такие гены склеенными) или посредством вставки одного гена или его фрагмента внутрь другого.

Изучение нуклеотидных последовательностей в настоящее время очень

актуально, так как дает возможность получить принципиально новую информацию. В

качестве такой новой информации могут выступать данные о местах склеек генов или

их фрагментов, которые были осуществлены в ходе эволюции. Программы,

основанные на выравниваниях, которые в настоящее время используются в качестве

основного инструмента для компьютерного предсказания склеек, имеют свои

ограничения. Эти ограничения, прежде всего, связаны с поиском предковых

последовательностей в банках данных, из которых могли образоваться гибридные

гены. Последовательности предшественников могут отсутствовать в базе данных либо

потому, что еще не были секвенированы, либо потому, что были утеряны в процессе

эволюции. Кроме того, они могли настолько измениться в процессе эволюции, что не распознаются существующими программами. Потому дополнительные методы, которые могли бы предсказывать места склеек генов или фрагментов генов без использования дополнительной информации в виде баз данных, имеют большое значение.

В качестве метода поиска мест склеек можно предложить метод обнаружения точек разладки триплетной периодичности в нуклеотидных последовательностях. Задача о разладке состоит в нахождении точки изменения статистических свойств последовательности. Такие изменения отражают внутренние изменения исследуемого процесса, детектируемые математическими методами. Впервые они были разработаны для контроля качества на производстве. Позже некоторые из этих методов были применены к последовательностям ДНК. Примером тому может быть выделение изохор, отделение кодирующих участков от некодирующих и т.д. Все эти методы используют статистические свойства последовательностей без использования выравниваний. Большинство работ по поиску точек разладки посвящены изучению неоднородности последовательностей ДНК на уровне геномов. В то же время существование неоднородностей возможно и на уровне отдельных генов, так как в генах существует так называемая триплетная периодичность. Она отсутствует в некодирующих областях генома и интронах. Триплетная периодичность характеризуются неравномерным распределением нуклеотидов в различных позициях ко донов.

Точки разладки триплетной периодичности в последовательности, могут отражать эволюционные изменения, приведшие к формированию данной последовательности. Исследование, посвященное классификации триплетной периодичности, показало, что триплетная периодичность большинства генов может быть отнесена к одному из примерно 2500 классов. Это позволяет предположить, что если некоторый ген был сформирован, в результате вставки или склейки двух последовательностей, триплетная периодичность которых значительно отличалась, то на границе будет присутствовать точка разладки триплетной периодичности. В этом месте статистические свойства триплетной периодичности будут резко меняться. Это означает, что можно разработать математические алгоритмы по поиску таких точек разладки в генах. Найденные таким образом точки разладки триплетной периодичности будут предсказывать

существование в местах разладки склеек генов или их фрагментов. Эти данные могут помочь в выстраивании картины эволюционной изменчивости генов. Полученные результаты могут быть применены для создания искусственных гибридных генов.

Степень научной разработанности проблемы

Уже несколько десятилетий известно, что последовательности ДНК, кодирующие белки, обладают свойством триплетнои периодичности. За это время разработано большое число методов для ее определения, такие как корреляционные методы, методы, основанные на динамическом программировании, преобразовании Фурье, вэйвлет-преобразованиях, информационные методы и некоторые другие. Триплетная периодичность нашла свое применение в компьютерных программах анализа последовательностей ДНК, таких как программы для поиска генов эукариотических и прокариотических геномов. Все разработанные методы для поиска точек разладки в последовательностях ДНК направлены на установлении факта наличия или отсутствия триплетнои периодичности на данном участке последовательности, а не на определении различия триплетнои периодичности двух участков. Математические методы по сравнению триплетнои периодичности отдельных районов генов ранее не были разработаны. Поэтому для поиска точек разладки требуется разработать метод, позволяющий изучать изменения триплетнои периодичности вдоль некоторой последовательности. Также ранее не изучался вопрос о существовании точек разладки триплетнои периодичности в реальных последовательностях генов.

Цель работы

Целью работы является разработка новых математических алгоритмов для поиска точек разладки в нуклеотидных последовательностях генов и проведение поиска и изучения точек разладки триплетнои периодичности в кодирующих последовательностях различных генов.

Задачи исследования

Для достижения поставленной цели был определен следующий список задач:

Разработка математического метода для поиска точек разладки триплетнои периодичности в кодирующих последовательностях ДНК с учетом возможного сдвига рамки считывания

Разработка и тестирование программного обеспечения, реализующего метод поиска точек разладки триплетной периодичности в кодирующих последовательностях ДНК с учетом возможного сдвига рамки считывания.

Обработка при помощи разработанного программного обеспечения кодирующих последовательностей банка данных KEGG.

Изучение найденных случаев точек разладки триплетной периодичности посредством поиска подобий в банке данных Swiss-Prot.

Разработка метода поиска парных точек разладки триплетной периодичности в кодирующих последовательностях ДНК с учетом возможных сдвигов рамки считывания.

Разработка и тестирование программного обеспечения, реализующего метод поиска парных точек разладки триплетной периодичности в кодирующих последовательностях ДНК с учетом возможных сдвигов рамки считывания.

Изучение при помощи разработанного метода поиска парных точек разладки триплетной периодичности кодирующих последовательностей 17 бактериальных геномов.

Исследование распределения триплетной периодичности генов внутри одного генома и генов, принадлежащих разным геномам. С целью оценки того, какой процент генов при склейке генов или их фрагментов может привести к появлению точки разладки триплетной периодичности.

Личный вклад автора

1. Разработка алгоритмов поиска одинарных и парных точек разладки триплетной
периодичности в кодирующих последовательностях ДНК.

2. Разработка и тестирование программного обеспечения, реализующего
алгоритмы поиска точек разладки в кодирующих последовательностях ДНК.

  1. Отладка параметров работы программ поиска точек разладки триплетной периодичности при помощи имитационного моделирования.

  2. Создание версии программы поиска одинарных точек разладки триплетной периодичности в кодирующих последовательностях ДНК для параллельной обработки на вычислительном кластере. Обработка реальных биологических последовательностей из банка данных KEGG.

  1. Анализ связи найденных случаев точек разладки триплетной периодичности с различными биологическими причинами с использованием известных программ.

  2. Разработка и тестирование программного комплекса для сравнения триплетной периодичности генов, принадлежащих одному геному, и генов, принадлежащих разным геномам.

Научная новизна

Данная работа обладает научной новизной, так как в ее рамках:

Впервые разработан математический метод поиска одинарных точек разладки триплетной периодичности в кодирующих последовательностях ДНК с учетом возможного сдвига рамки считывания и реализующее его программное обеспечение.

Впервые разработан алгоритм поиска парных точек разладки в кодирующих последовательностях ДНК и реализующее его программное обеспечение.

Впервые показано существование множества одинарных и парных точек разладки триплетной периодичности как в генах прокариот, так и в генах эукариот.

Впервые проведено исследование распределения триплетной периодичности на множестве генов, принадлежащих одному геному, и разным геномам.

Теоретическое и практическое значение работы

Теоретическое значение работы состоит в демонстрации того факта, что триплетная периодичность белок-кодирующих последовательностей ДНК неоднородна на протяжении одной последовательности и может содержать статистически значимые точки разладки, как одинарные, так и парные. Эти точки разладки указывают на возможность существования склейки фрагментов ДНК в данном месте гена. Это означает, что разработанные методы имеют предсказательную функцию.

Практическое значение созданных алгоритмов, программного обеспечения и полученных результатов состоит в следующем. Разработаны методы поиска одинарных и парных точек разладки триплетной периодичности в кодирующих последовательностей ДНК и реализующее их оригинальное программное обеспечение. Исследование точек разладки триплетной периодичности в кодирующих последовательностях ДНК может быть использовано для поиска генов, образованных в результате вставки или склейки. Исследование таких последовательностей может дать ключ к более глубокому пониманию эволюции генов. Новый метод поиска склеенных генов может дать информацию о том, как формируются новые белки в процессе

эволюции и дать возможность для разработки новых методов создания искусственных ферментов. Возникает возможность объединения фрагментов генов в тех позициях, которые были уже использованы в ходе эволюции для создания гибридных генов. Специфичность триплетной периодичности к определенному геному может быть использована для поиска генов, появившихся в геноме в результате горизонтального переноса.

Положения, выносимые на защиту

Метод поиска одинарных точек разладки триплетной периодичности с учетом возможного сдвига рамки считывания в белок-кодирующих последовательностях ДНК.

Метод поиска парных точек разладки, на основании мер различия и подобия матриц триплетной периодичности с учетом возможного сдвига рамки считывания в белок-кодирующих последовательностях ДНК.

Исследование однородности триплетной периодичности генов, принадлежащих одному геному и генов, принадлежащих разным геномам.

Достоверность научных результатов

Достоверность полученных результатов основана на использовании методов математической статистики и тестировании разработанных алгоритмов с использованием модельных объектов с заранее известными свойствами. Достоверность также проверялась путем сравнения полученных результатов с результатами, полученными ранее как теоретическими, так и экспериментальными методами.

Методология и методы исследования.

Теоретические основы исследования составили научные труды широкого круга отечественных и зарубежных ученых в области анализа символьных последовательностей. В диссертационной работе для решения поставленных задач использовались следующие методы исследования: методы теории вероятностей, математической статистики, методы теории информации и методы математического моделирования.

Апробация работы

Основные результаты, представленные в данной диссертационной работе, докладывались на следующих конференциях: международной конференции "Новые информационные технологии в медицине, биологии, фармакологии и экологии", Гурзуф, Украина. 2010; III и IV международных конференциях "Математическая

биология и биоинформатика", Пущино, в 2010 и 2012 годах; Четвертой международной конференции для молодых ученых "Молекулярная биология: достижения и перспективы" Киев, Украина, 2011; Школе-конференции молодых ученых "Фундаментальная наука для биотехнологии и медицины-2011" Москва, Россия; Конференции «Методы математической физики и математическое моделирование физических процессов», проводимой в рамках «Научной сессии НИЯУ МИФИ-2012» Москва, 2012; Средиземноморской конференции по встроенным вычислениям (МЕСО 2012), Бар, Черногория, 2012; Конференции, посвященной сложности генома, проводимой в рамках Европейской конференции по сложным системам, Брюссель, Бельгия, 2012 и межлабораторном семинаре Центра «Биоинженерия» РАН, Москва, 2015.

Публикации по теме диссертации

По материалам диссертации опубликовано 15 печатных работ, из них 5 работ - в рецензируемых научных изданиях и 10 - в материалах научных конференций.

Структура и объем диссертации

Определение периодических последовательностей

За последние десятилетия для анализа нуклеотидных последовательностей создано большое число методов, направленных на решение различных задач. С точки зрения компьютерного анализа последовательность ДНК чаще всего представляет собой символьную последовательность (S) четырех буквенного алфавита А. Каждая буква соответствует одному из оснований ДНК: аденин [А], гуанин [G], цитозин [С] и тимин [J]. В некоторых алгоритмах вводятся сокращенные версии алфавита, полученные в результате объединения нуклеотидов в группы по различным биохимическим принципам. Три самых распространенных правила для построения сокращенных алфавитов:

Одно из центральных понятий, используемых в биоинформатике -понятие подобия последовательностей. Оно подразумевает, что символьное подобие последовательностей ДНК отражает функциональное, структурное и эволюционное сходство между ними (и кодируемыми белками), а существующие различия были приобретены в процессе эволюции. Таким образом, если есть некоторая последовательность, о которой ничего неизвестно и есть другая последовательность похожая на нее с известными свойствами, то на основании этого сходства можно предсказать структуру, функции или эволюционное происхождение неизвестной последовательности. Потому одной из первых задач стало создание алгоритмов и программ, позволяющих выявлять уровень подобия между двумя (и более) последовательностями (задача выравнивания).

Выравнивание - один из основных инструментов, используемый современной биоинформатикой. Выравнивание (двух или более) последовательностей - это процедура сопоставления символов последовательностей, при котором достигается максимальный уровень подобия (максимум функции сходства). Эта процедура основана на методе динамического программировании с использованием весовых матриц [Durbin и др., 1998] и системы штрафов. Весовые матрицы представляют собой симметричную квадратную матрицу, ячейки которой - это веса, задающие уровень сходства между отдельными символами алфавита. При этом разрешается вставлять в последовательность специальный «пустой» символ, называемый делецией. При таком подходе система оценки (весовая матрица и система штрафов) играет большую роль, так как эта система должна отдавать предпочтение биологически правильному выравниванию. Существуют методы глобального [Needleman, Wunsch, 1970] (когда последовательности выравниваются от начала до конца), и локального [Smith, Waterman, 1981а] выравнивания (которое подразумевает поиск наиболее похожих участков). Также для ускорения процесса поиска подобий в больших базах данных (классические методы динамического программирования при выравнивании двух последовательностей длиной М и N требуют 0(MxN) памяти и столько же времени) используются различные эвристические подходы.

Программы выравниваний не только исторически являются одними из первых программ анализа биологических последовательностей, но также лежат в основе многих других алгоритмов и методов этой области. Так программа построения выравниваний, основанная на эвристическом алгоритме, BLAST, пожалуй, самый популярный инструмент современной биоинформатики - согласно Google на исходную статью 1990 года [Altschul и др., 1990] насчитывается более 40 000 ссылок. Однако, не смотря на все это, возможности выравниваний ограничены. Так по данным [Loewenstein и др., 2009] программы аннотации на основе анализа последовательностей могут покрыть до 70% белков, представленных в банке данных аминокислотных последовательностей UniProt. Это ограничение связанно с тем, что в процессе эволюции последовательностей предковые формы не сохранились или исходное сходство, было утеряно в результате мутаций. Поэтому в последнее время все чаще предпринимаются попытки создания алгоритмов анализа последовательностей, не использующих выравниваний так называемых "alignment-free"MGTOROB [Bonham-Carter, Steele, Bastola, 2013; Kantorovitz, Robinson, Sinha, 2007; Vinga, 2014; Vinga, Almeida, 2003]. Создатели таких программ используют для решения задач только статистические свойства самой символьной последовательности. Этот подход особенно часто используется при поиске регуляторных последовательностей, т.к. для многих из них известны специфические мотивы. Существуют такие программы и для филогенетических исследований [Stuart, Moffett, Baker, 2002], сравнения последовательностей [Borozan, Watt, Ferretti, 2015; Yin, Chen, Yau, 2014]. Однако по сравнению с методами, использующих выравнивания, их доля пока невелика.

Известно, что периодические явления, регистрируемые "математическими методами" могут отражать внутренние свойства самого объекта. Существует множество исследований, посвященных изучению периодических явлений не только в последовательностях ДНК, но и в музыке, текстах на естественных языках, компьютерных программах, экономических данных и многих других типах последовательностей.

Периодические последовательности имеют меньшую сложность, по сравнению со случайными последовательностями (так называемыми последовательностями Бернулли). Последовательность Бернулли - это последовательность, в которой появление каждого следующего символа случайно и не зависит от контекста, т.е. от остальных символов последовательности (в классическом определении также все символы имеют равную вероятность появления). Это означает, что вероятность найти подпоследовательностьsls2...sn длины п равна произведению вероятностей появления составляющих ее символов:

То, что в реальных последовательностях периодичность не явно выраженная, а представляет собой, так называемую размытую или скрытую периодичность является основным препятствием для ее обнаружения. В случае скрытой периодичности каждая позиция периода может принимать значение из некоторого набора символов [Korotkov, Korotkova, Kudryashov, 2003]. Модель такой последовательности с периодом в три символа можно записать в виде {A,C}{T}{A,C,G}, например

Поиск парных точек разладки в нуклеотидных последовательностях

Выбор порогового уровня в алгоритмах сегментации является одним из важнейших параметров. Он определяет, насколько должны отличаться два участка для того, чтобы можно было их разделить. Очевидно, что слишком высокий пороговый уровень может привести к полному отсутствию точек разладки, слишком низкий - к появлению точек разладки даже на случайных последовательностях.

Выбор должен производиться на искусственных последовательностях, правильного состава. В случае сегментирования последовательности на основании свойства триплетной периодичности необходимо в качестве модельных последовательностей сгенерировать такие, в которых: гарантирована равномерность триплетной периодичности (неравномерность возможна лишь на уровне случайных флуктуации); - обладают тем же нуклеотидным составом, что и исходная последовательность; - обладают тем же уровнем триплетной периодичности, что и исходная последовательность.

Для генерации последовательностей, удовлетворяющих всем этим требованиям, было использовано перемешивание с сохранением триплетной периодичности. Для этого каждая рассматриваемая последовательность S была разделена на три последовательности, таким образом, что в первую последовательность (Сі) вошли символы, стоящие на первых позициях кодонов последовательности S (хг :/ = 1 + 3/7;/7 = 0,1,2...), во вторую {Сі) - символы, находящиеся на вторых позициях (х.:/= 2 + 3w;/7 = 0,1,2...), а в третью {Сі) - символы, находящиеся на третьих (х.:/= 3 + 3/7;/7 = 0,1,2...). Затем из каждой последовательности G путем случайного перемешивания была получена последовательность Rt. Полученные последовательности R\, Ri и і?з были, вновь объединены в одну {R), в соответствии с исходной каждой последовательности позицией в ко донах исходной.

Новая последовательность R имеет ту же длину, частоты символов и тот же уровень триплетной периодичности, что и исходная последовательность S. При этом перемешивание должно выровнять все имеющиеся неоднородности триплетной периодичности исходного гена. Иллюстрация процесса генерации случайных последовательностей представлена на рисунке (Рисунок 4).

При создании случайных последовательностей был использован генератор псевдослучайных чисел вихрь Мерсена (Mersenne twister) [Matsumoto, Nishimura, 1998].

Уровень значимости меры различия частотных матриц. Рассмотрим событие А: для некоторой последовательности в точке х максимальное значение функции D превосходит порог Do, то есть эта последовательность содержит точку разладки триплетной периодичности в этой позиции. Обозначим yl = р(А/ KEGG) - вероятность события А для гена из банка данных KEGG. Обозначим No - число независимых тестов события А в банке данных KEGG. Пусть N = y N0 ожидаемое число событий A, a SNl - число случайных появлений события А (О 8 1). Требуется выбрать такое пороговое значение Do (и соответственно ух) таким образом, чтобы значение 8 составило 5%. Для выбора этого значение нужны контрольные последовательности. Число тестов, проведенных на случайных последовательностях, равно объему исходного банка - No. Контрольные последовательности сгенерированы таким образом (раздел 2.1.3), что точки разладки, найденные в них вызваны исключительно случайными факторами. Обозначим такую вероятность как у2 = р(А/random). Соответственно, N2 = y2N0 ожидаемое число событий А на контрольной выборке. Следовательно, требуется выбрать Do таким образом, чтобы отношение составило

Для определения статистически значимых случаев при поиске точек разладки было осуществлено моделирование с использованием искусственных последовательностей R (см раздел 2.1.3). Для всех рассмотренных последовательностей были созданы соответствующие модельные последовательности. Множество модельных последовательностей было обработано программой, реализующей алгоритм поиска точек разладки. Далее был выбран такой пороговый уровень Do, чтобы число случаев найденных точек разладки на случайных последовательностях по отношению к числу случаев, полученных на реальных последовательностях, составило соотношение 1:20. Такой уровень соответствует 5% вероятности ошибки первого рода. Полученный уровень был использован в работе в качестве порогового.

Для того, чтобы проверить гипотезу о различии вероятностей события для случайного и реального банка данных. Нулевая гипотеза состоит в равенстве вероятностей Н0: У1 = У2, тогда альтернативная гипотеза Н1: ух Ф у2. Критерий для проверки гипотезы состоит в следующем [Gmurman, 1968]:

Поиск точек разладки триплетной периодичности с использованием скользящего окна был применен поочередно к каждой рассматриваемой последовательности. Выделение участков подразумевает сдвиг позиции х вдоль последовательности справа с шагом в три основания. Для каждой позиции варьировалась длина рассматриваемого окна справа и слева от х от / варьировалась 60 до 600 нуклеотидов, насколько позволяют границы последовательности (/ кратно трем). Размер окон менялся синхронно. Для каждого участка внутри окна строились матрицы триплетнои периодичности, которые затем сравнивались с использованием меры различия (см. раздел 2.1.2), с учетом возможного сдвига рамки считывания.

Исключение из результатов высокогомологичных последовательностей

Для оценки того, какая часть найденных нами случаев генов, содержащих точку разладки могла произойти в результате события склейки двух разных генов, был проведен поиск возможных предковых последовательностей традиционным для этой области способом - с использованием поиска подобий. Рассмотрим последовательность гена, содержащего точку разладки в позиции х, которая показала максимум функции различия (см. Раздел 2.1.2). Если событие склейки имело место не так давно, то возможно будет найти независимые предковые последовательности, сформировавшие данный ген в других или в том же геноме, если они сохранились в процессе эволюции и находятся в банке данных. Таким образом, могут существовать независимые кодирующие последовательности для левой и правой части (от точки х) или хотя бы для одной из них.

Для каждой последовательности с точкой разладки был проведен поиск сравнений среди аминокислотных последовательностей, содержащихся в банке данных Swiss-Prot. Поиск проводился с использованием программы BLASTx [Altschul и др., 1990], которая производит поиск подобий нуклеотидной последовательности с аминокислотной по всем шести возможным рамкам считывания. Пороговое значение для величины E-value было установлено равным 10 5что дает приблизительно 3 случайных подобия на все множество 3-Ю5 случайных последовательностей с банком данных Swiss-Prot. Это значение показывает, что число случайных подобий в результатах сравнений незначимо. Таблица 1. Выравнивание аминокислотной последовательности гена XCV2603 подтверждающего возможную склейку Р26366 5е-48 175 414 В результате для 131 323 исследуемых последовательностей с точками разладки было найдено подходящее подобие. Среди них 54 406 последовательностей, для которых подобие было найдено только для первого участка (до точки х), 60 333 генов получили подобие для второго участка (после позиции х и до конца гена). И наконец, для 16 584 случаев подходящее выравнивание было найдено для обоих участков в разных последовательностях по меньшей мере с одной из последовательностей банка данных Swiss-Prot независимо. Например, в последовательности гена XCV2603 (acetylmuramoyl-L-alanine amidase) генома X.campestrisvesicatoria была обнаружена точка разладки триплетной периодичности в позиции 873 п.н.. Было найдено значимое выравнивание для первой части данной последовательности (от 1 до 933 п.н.) с последовательностью Q60528 (Uniprot идентификатор) (Mucin-1 precursor) генома M.auratus (от 1 до 312 АА), но после 933 символа подобие отсутствует. В тоже время вторая часть изучаемой последовательности (от 315 до 537 АА) имеет подобие с последовательностью Р26366 (Uniprot идентификатор) (N-acetylmuramoyl-L-alanine amidase amiC) генома E.coli (от 186 до 407 АА). Выравнивания приведены в таблице (Таблица 1). Подобные выравнивания подтверждают гипотезу о том, что данный ген мог быть образован путем склейки двух разных генов.

Изучение влияния аминокислотных повторов на точки разладки триплетной периодичности

Известно, что аминокислотные последовательности, также могут содержать повторы. Основные типы повторов здесь это тандемные, перемежающиеся и скрытые повторы. Все эти повторы могут влиять на уровень триплетной периодичности соответствующего участка и, следовательно, на разработанную меру. Если для найденной позиции х одного из участков справа или слева S(x - L\ + 1; х) или S(x + 1; х + L\), занимает такой повтор, то различие триплетной периодичности для этих участков, а следовательно и точка разладки триплетной периодичности может быть легко объяснена именно его влиянием. Для того, чтобы проиллюстрировать влияние повторов, был создан искусственный пример. Для этого в последовательность гена Ь2063 генома Escherichia coli между 750-м и 751-м символами была произведена вставка тандемного повтора ко дона CTG, размером в 50 периодов. Рисунок (Рисунок 15) иллюстрирует изменения различия триплетнои периодичности для этого примера для всех трех рамок. Легко видеть, как сильно возрастает функция различия в районе вставки. Следовательно, для того чтобы исследовать причины точек разладки триплетнои периодичности, следует оценить влияние повторов на полученный нами результат.

Для оценки влияния повторов последовательности должны быть переведены в аминокислотные в соответствии с действующей рамкой считывания, и затем обработаны программой GBA, разработанной авторами работы [Li, Kahveci, 2006]. Эта программа способна выявлять все перечисленные выше типы аминокислотных повторов. Единственным недостатком данной программы является значительное время работы. Поскольку проверка каждой последовательности заняла бы значительное время, для оценки влияния повторов из всего множества была создана выборка размером в 10 830 последовательностей. Последовательности для выборки случайным образом выбирались из всех представленных геномов, а число последовательностей от одного генома было пропорционально числу генов с точкой разладки из этого генома в общей выборке. При обработке были выбраны параметры по-умолчанию. Оценкой значимости результатов работы программы GBA является величина р-value. Пороговое значение было выбрано на тестах с использованием множества случайных перемешанных последовательностей (раздел 2.1.3), таким образом, чтобы на случайных последовательностях результат составил приблизительно 5%.

При поиске повторов в последовательностях созданной выборки использовались условия: p-value Ро и / Li/З (где / - длина повтора на данном участке). В результате было найдено 750 последовательностей, в которых точка разладки может быть объяснена влиянием повторов. Что соответствует оценке в (6,92 + 0,24%) случаев, которые могут быть объяснены влиянием повторов.

Все биологические банки данных, включая KEGG, обладают избыточностью, что означает, что они могут содержать несколько записей одной и той же или очень похожих последовательностей. Такая избыточность могла сохраниться и среди полученного множества генов с точкой разладки. Для того, чтобы избавиться от избыточности, то есть получить выборку, внутри которой подобие между последовательностями составляет не более 90%, было проведено попарное сравнение каждой последовательности с каждой, используя программу megablast, при заданном уровне сходства более 90%. После проведенного анализа избыточности, 58 695 последовательностей были удалены из выборки.

Для оставшихся после удаления избыточности 252 526 генов было проведено исследование распределения функций кодируемых белков в нашем множестве (на основании описания соответствующих генов, приведенном в банке данных KEGG). Приведенная ниже таблица (Таблица 2) содержит 20 наиболее распространенных описаний функций кодируемых белков. ABC транспортер оказался наиболее распространенной функцией среди генов, содержащих точку разладки триплетной периодичности (711 случаев).

Распределение триплетной периодичности между геномами

Была проведена попарная классификация генов на основании матриц триплетной периодичности для 990 пар геномов методом к ближайших соседей. Результаты показывают (см. Рисунок 27), что в большинстве пар точность классификации (отношение правильно определенных генов к общему числу генов в паре) превышает 85%. Данный результат также означает, что при склейке генов, принадлежащих разным геномам (возможно, в результате горизонтального переноса), от 60 до 90% пар генов (в зависимости от

Это означает, что триплетная периодичность не только однородна внутри генома, но и в большинстве случаев специфична по отношению к геному, которому принадлежит данный ген. И лишь около 20% последовательностей внутри одного генома обладают достаточно большими различиями в триплетнои периодичности, чтобы в результате события склейки привести к появлению значимой точки разладки триплетнои периодичности.

Обсуждение результатов изучения распределение триплетнои периодичности бактериальных геномов

В данной работе было проведено исследование распределения различия триплетнои периодичности множества генов, принадлежащих одному геному и разным геномам. Для этого каждый рассматриваемый ген описывался с помощью соответствующей матрицы триплетная периодичность. Распределения различия между матрицами триплетной периодичности внутри и между геномами было использовано, для оценки однородности распределения триплетной периодичности на соответствующем множестве: чем более похожи матрицы, тем более однородно рассматриваемое множество. В качестве контроля были построены модельные последовательности, соответствующие гипотезам однородности и случайности происхождения триплетной периодичности среди последовательностей некоторого множества. В результате было показано, что (1) внутри геномов триплетная периодичность однородна, за исключением порядка 15-20% генов в зависимости от генома; (2) триплетная периодичность генов, принадлежащих различным геномам различается больше, чем внутри геномов; (3) для большинства пар геномов матрица триплетная периодичность последовательности может определять ее принадлежность к тому или иному геному из пары.

В процессе работы было показано, что распределения различия между матрицами триплетной периодичности на множестве генов одного генома ближе к модели, построенной на основе однородной гипотезы. Эта гипотеза предполагает, что гены либо изначально имели одинаковую триплетную периодичность, либо в процессе эволюции триплетная периодичность генов выравнивается и приводится к одному типу. Наличие небольшого процента генов, чья триплетная периодичность отличается от триплетной периодичности большинства последовательностей в геноме, может быть связано с горизонтальным переносом генов между бактериями, либо с мутациями сдвига рамки считывания или склейки в данных последовательностях. Так как такие мутации обладают свойством изменять матрицу триплетной периодичности [Korotkova, Korotkov, Kudryashov, 2011; Suvorova, Rudenko, Korotkov, 2012].

Однородность триплетнои периодичности внутри геномов и различие трипленой периодичности между геномами, показанное в данной работе, может быть связанно с неравномерным использованием синонимических кодонов. Известно, что распр деление частот использования синонимических кодонов варьируется между геномами. Существуют примеры предпочтительного использования (или наоборот полного избегания) определенных кодонов в различных типах организмов [Plotkin, Kudla, 2011]. Однако триплетная периодичность -это более общая мера, нежели просто подсчет частот различных кодонов. То есть если из 64-мерного вектора (частот) кодонов можно одназначным образом построить матрицу триплетнои периодичности, то обратное преобразование (из матрицы в частоты кодонов) не будет однозначным.

Ранее было показано, что частотные свойства нуклеотидных последовательностей специфичны для различных геномов - так называемые, genomic signatures [Bohlin, Skjerve, 2009; Bohlin, Skjerve, Ussery, 2009]. Размер рассматриваемых участков в этих исследованиях составляет порядка 40 килобаз, они включают как кодирующие так и некодирующие области, что не позволяет исследовать различия на уровне отдельных генов. В работе [Pinho и др., 2010] был проведен филогенетический анализ различных геномов на основании контекстных векторов, которые оп словам авторов отражают триплетную периодичность кодирующих последовательностей геномов. Авторами получена хорошая классификация геномов в соответствии с векторами, однако полученные результаты, отражают скорее не различия триплетнои периодичности данных геномов, а степень размытости различных позиций кодонов. Так например, очевидно, что две частотные матрицы на рисунке (Рисунок 28) представляют различные типы триплетнои периодичности, но значения контекстных векторов для последовательностей длиной 3x10 нуклеотдов, сгенерированных по этим матрицам, одинаковы. Кроме того из-за необходимости накопления статистики контекста метод также рассматривает только последовательности большой длины и не позволяет рассматривать отдельные гены.

Также было показано, что матрица триплетной периодичности позволяет с высокой точностью определить принадлежность гена к одному из двух геномов для большинства пар. Высокая точность классификации генов по триплетной периодичности для пар геномов, снижается при увеличении числа классов (используемых геномов). На основании триплетной периодичности гены можно классифицировать только внутри пары. Для улучшения качества классификации, возможно, добавить в рассмотрение дополнительные признаки, например, периодичность длиной периода отличной от трех.