Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Разработка алгоритмов для решения обратных математических задач, возникающих в биомедицине Певцов Сергей Евгеньевич

Разработка алгоритмов для решения обратных математических задач, возникающих в биомедицине
<
Разработка алгоритмов для решения обратных математических задач, возникающих в биомедицине Разработка алгоритмов для решения обратных математических задач, возникающих в биомедицине Разработка алгоритмов для решения обратных математических задач, возникающих в биомедицине Разработка алгоритмов для решения обратных математических задач, возникающих в биомедицине Разработка алгоритмов для решения обратных математических задач, возникающих в биомедицине Разработка алгоритмов для решения обратных математических задач, возникающих в биомедицине Разработка алгоритмов для решения обратных математических задач, возникающих в биомедицине Разработка алгоритмов для решения обратных математических задач, возникающих в биомедицине Разработка алгоритмов для решения обратных математических задач, возникающих в биомедицине
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Певцов Сергей Евгеньевич. Разработка алгоритмов для решения обратных математических задач, возникающих в биомедицине : дис. ... канд. физ.-мат. наук : 05.13.18 Москва, 2007 131 с. РГБ ОД, 61:07-1/732

Содержание к диссертации

Введение

Глава 1. Постановка задачи локализации источников элек трической активности головного мозга 25

1.1. Основные элементы центральной нервной системы, участвующие в генерации электрической активности головного мозга 25

1.2. Регистрация электрической активности головного мозга 29

1.3. Математическая модель нейронных источников электри ческой активности головного мозга 30

1.4. Постановка задачи локализации внутренних источников электрической активности 32

1.5. Вариационная формулировка задачи и форма приближен ного решения 35

1.6. Численные методы для решения задачи локализации нескольких диполей 38

1.6.1. Использование метода градиентного спуска для локализации нескольких диполей 39

1.6.2. Использование метода Ныотона-Рафсона для локализации нескольких диполей 41

1.6.3. Метод линейного поиска с дроблением шага 42

1.6.4. Метод со стохастическим выбором направлений спуска 45

1.7. Выводы 46

Глава 2. Задача реконструкции токов в ЭЭГ 47

2.1. Мотивация 47

2.2. Пространственная реконструкция токов в ЭЭГ в один мо мент времени 49

2.3. Метод расширяющихся сеток для регуляризации решения задачи реконструкции токов 52

2.4. Временные зависимости ЭЭГ сигналов, анализ частотных характеристик 53

2.5. Локализация источников электрической активности в про цессе запоминания информации 54

2.6. Реконструкция источников в задаче о выделении признаков специфической ментальной активности 56

2.7. Выводы 58

Глава 3. Разработка и исследование алгоритмов для решения обратной задачи протеомики 60

3.1. Мотивация 60

3.2. Постановка обратной задачи протеомики - идентификации пептида по масс-спектру 62

3.3. Описание алгоритма идентификации пептидов 64

3.4. Результаты идентификации пептидов при помощи предло женного алгоритма 68

3.5. Относительное пептидное расстояние как мера эффектив ности алгоритмов идентификации пептидов 72

3.6. Чувствительность и положительная предсказательная цен ность как меры оценки эффективности алгоритмов иденти фикации пептидов 74

3.7. Исследование зависимости качества идентификации пептидов от качества спектров 77

3.8. Выводы 80

Заключение 81

Литература

Введение к работе

Диссертация посвящена разработке методов решения двух актуальных задач медицины. В обеих задачах анализируется поведение сложных молекулярных структур. Первая связана с изучением работы мозга путем анализа электроэнцефалограммы (ЭЭГ). В центре внимания - проблема локализации активных нейронных источников по ЭЭГ сигналу. Вторая задача состоит в идентификации протеинов при помощи тандемной масс-спектрометрии. В этой задаче по измерениям масс, образующихся в процессе фрагментации пептида (небольших частей протеина) в масс-спектрометре, и статистике частоты образования этих масс в ходе эксперимента (интенсивности) требуется восстановить последовательность аминокислот в пептиде.

Диссертация состоит из введения, 3 глав, заключения и списка литературы. В первой главе рассматривается модель электрической активности головного мозга и предлагается алгоритм локализации дипольиых источников. Вторая глава посвящена исследованию и решению задачи реконструкции токов по ЭЭГ данным при помощи предложенного в диссертации метода расширяющихся сеток. В третьей главе разрабатывается алгоритм для решения обратной задачи протеомики и предлагается мера оценки эффективности алгоритмов идентификации пептидов.

В последнее время происходит бурное внедрение методов математического моделирования для решения актуальных задач биомедицины. Это связано с созданием новых сложных молекулярных соединений и их использованием в лечении человека и создании лекарств. Дальнейшее про-

движение в этих областях существенно опирается на решение обратных математических задач, возникающих при анализе экспериментальных данных. Возникающие задачи являются некорректными как по единственности, так и по устойчивости решения и требуют привлечения дополнительной информации для регуляризации задач. Неединственность решения задач обусловлена принципиальными причинами, связанными со статистическим характером анализа микросистем вследствие отсутствия хороших прямых моделей их поведения.

Человеческий мозг, состоящий из более, чем десяти миллиардов нейронов, представляет сложно организованную систему, понимание поведения которой и создание математических моделей этого поведения до сих пор представляют одну из амбициозных задач. Тем не менее, анализ некоторых аспектов этого поведения, например, вызванных потенциалов мозга, позволяет связать измерения ЭЭГ с ощущениями человека, с некоторыми аспектами его мыслительной активности. В настоящее время в ведущих институтах США, Германии, Англии созданы компьютерные программы по локализации источников нейронной активности, такие как BESA, Brainanalyzer, EEGLAB, sLoreta, FieldTrip. Важные результаты по решению обратной задачи ЭЭГ в нашей стране получены Ю.М.Коптеловым, Е.В.Захаровым, В. М.Верхл ютовым, А.А.Фроловым; были созданы компьютерные программы BrainLoc и Энцефалан-ЗБ, которые используются в медицине при анализе эпилептиформной активности, локализации опухолей. Исследование внутренних процессов мозга при различных заболеваниях может стать ключевым при разработке новых способов лечения или лекарственных препаратов.

В настоящее время бурно развивается такая область применения ЭЭГ, как "интерфейс мозг-компьютер" (Brain-Computer Interface, ВСІ), по сути представляющий собой новый канал связи человека и компьютера. Принцип работы интерфейса основан на выделении специфических

признаков из ЭЭГ человека, которые соответствуют определенным видам мозговой активности, с последующей классификацией и обратной связью, использованием их в качестве управляющих команд. Быстро растущие приложения интерфейса мозг-компыотер можно найти в системах передачи информации, телефонии, автомобилестроении. Увеличивается число проектов по ВСІ, таких как BrainGate, BCI2000, WTEC.

Несмотря на множество предложенных методов и программ для решения обратной задачи ЭЭГ, вопрос о неединственности ее решения остается актуальным и связан с основной нерешенной проблемой: с помощью ЭЭГ регистрируется только суммарная активность большого количества нейронов. Активность отдельных нейронных центров, последовательность их возбуждений и вопрос о путях распространения импульсов в человеческом мозге до конца не изучен из-за чрезвычайной сложности проведения необходимых микроизмерений инвазивного характера.

Создание новых лекарств в настоящее время тесно связано с биомолекулярными исследованиями, мишенью основной части фармакологических средств являются белки. Проблема создания математических методов и программ для идентификации последовательности аминокислот в белке является актуальной, так как свойства и структура белков определяются порядком следования составляющих его аминокислот.

В последнее время в мире создано множество пакетов программ для идентификации протеинов, например, PEAKS, PepNovo, NovoHMM, Lutefisk, AUDENS. Тем не менее, качество идентификации протеинов с помощью имеющихся программ не позволяет решать множество актуальных задач, связанных с исследованиями новых белковых соединений, и требует создания новых эффективных методов и алгоритмов.

Целью диссертации является разработка математических моделей и алгоритмов для решения некорректных обратных задач электроэнцефалографии и протеомики, создание комплекса программ, предназначенных

для автоматизации научных исследований в соответствующих областях.

Задача локализации источников электрической активности плохо обусловлена, поэтому требуется дополнительная пространственная и временная информация, чтобы разрешить эту проблему. Математически задача состоит в определении правой части в трехмерном эллиптическом уравнении по заданным граничным условиям на потенциал и его нормальную производную. Известно, что для заданного распределения электрического потенциала на поверхности головы существует бесконечное число конфигураций внутренних источников тока, которые могут создавать данное распределение потенциала [1]. Это означает, что решение обратной задачи неединственно, что приводит к необходимости введение некоторых модельных ограничений, что, впрочем, еще не гарантирует единственности. В диссертации используется модель, в которой голова человека представляется в виде объемного проводника с неоднородной проводимостью, и источники электрической активности моделируются диполями. Таким образом, задача состоит в определении параметров дипольных источников (координат и моментов) по измерениям разностей потенциалов на поверхности головы.

Существует два подхода к решению обратной задачи ЭЭГ [2]. Первый подход заключается в использовании методов оптимизации для "подгонки" параметров диполей таким образом, чтобы добиться наилучшего приближения вычисляемого потенциала (как функции этих параметров) к измерениям [3], [4]. Это нелинейная задача оптимизации, и здесь регуляризация достигается выбором малого числа разыскиваемых параметров. Очень важной проблемой в этом подходе является проблема определения необходимого количества диполей. Следует заметить, что в этом случае разыскивается комбинация расположение-момент диполя [5].

Второй подход (реконструкция токов) отличается от первого тем, что расположение диполей внутри головы задано на некоторой пространственной сетке, а разыскиваются только их моменты. В силу того, что потенци-

ал, создаваемый дипольным источником, линейно зависит от его моментов, задача реконструкции токов является линейной [б]. Однако, из-за большого количества узлов сетки, покрывающей объем головы, эта задача переопределена и требует дополнительных ограничений для выбора решения, например, требование минимума нормы решения [7], [8]. Определение распределения токов проводится на каждом .временном срезе ЭЭГ. В работе [9] предложен метод гладкой временной активации, где учитывается динамика изменения ЭЭГ во времени. В настоящее время она все более актуальна, поскольку проблема определения числа диполей до сих пор не решена. На практике число диполей в данном методе намного превышает число точек измерения, что влечет за собой плохую обусловленность матрицы системы. Следовательно для получения единственного и устойчивого решения необходима некоторая дополнительная информация об источниках. Одним из способов решения этой проблемы является регуляризация по Тихонову [10], [11], когда ставится условие минимума нормы решения с регуляризи-рующим параметром.

Первая попытка численного решения обратной задачи ЭЭГ была предпринята в работе [12]. В работах [13], [14] по локализации эпиочагов у человека подробно рассматривается многошаговый процесс для вычисления параметров диполя. В качестве математической модели в этих работах использовалось представление о голове человека как о проводящей однородной сфере. Минимизация вычисленных и измеренных потенциалов проводилась по методу наименьших квадратов, с последовательным приближением по методу покоординатного спуска. Измеренные на поверхности головы потенциалы (при 4-х разных наборах биполярных отведений) сравнивались с вычисленными, и с помощью метода оптимизации находились 6 параметров эквивалентного диполя. Отмечается, что скорость сходимости зависит от многих факторов.

В работе [15] использовалась математическая модель в виде гомогенной сферической проводящей среды. Дипольный источник локализовы-

вался аналитически при использовании значений потенциалов ВП в шести отведениях. Нахождение координат диполя проводилось с помощью минимизации нормализованной ошибки измеренных и вычисленных значений потенциала для каждого из сечений ВП.

В работе [16] проводилась оценка возможности локализации эквивалентных диполей с помощью теории электрического поля как на модели, так и в реальном исследовании двух здоровых испытуемых с локализацией эквивалентных источников альфа-ритма, потенциалов от моргания и зрительных ВП. Одна из основных целей работы - сравнение локализации в случае однородной и неоднородной модели. Показано, что на локализацию источников оказывают влияние такие морфологические и электрические факторы, как: 1) ослабление поля экстрацеребральными тканями; 2) "смазывание" градиента потенциала благодаря пассивным проводникам, находящимся между мозгом и электродом; 3) отклонение формы черепа от сферы.

Специальное исследование, посвященное оценке методов трехмерной локализации электрических источников мозга человека, проведено в [17]. В работе представлен анализ методов определения внутричерепных электрических источников в понятиях эквивалентного диполя, голова моделируется как гомогенными, так и негомогенными (трехслойными) сферами. Новизна работы заключается в том, что в ней сделана попытка локализации больше, чем одного источника, и проведен анализ ошибок, влияющих на точность локализации за счет неточности измерения потенциалов и неточности постановки электродов. Ошибка локализации диполей составила порядка 10 — 15%.

Вызванные потенциалы являются более подходящими для использования диполыюй модели в силу первоначально малого, почти точечного, участка возбуждения [18]. Так, полученные в работе [19] данные говорят о правомерности и достаточной информативности применения метода диполыюй локализации к анализу вызванных потенциалов. Однако в этой

и последующих цитируемых работах алгоритм не приводится, а даются в основном конечные результаты.

В обзорной статье Лемана с соавт. [20], посвященной компьютерной локализации источников ВП в отношении оценки нарушения полей зрения, имеется небольшой раздел об использовании метода дипольной локализации, в котором рассматриваются некоторые общие подходы, и приводится единичный иллюстрирующий пример локализации источника зрительных ВП для сферической модели.

При анализе ВП возможен подход, когда за основу вычисления не берется решение обратной задачи, а в основном используется либо векторный анализ дипольных источников [21], либо сравнение вычислительных функций распределения от предполагаемого расположения диполя с реальным распределением потенциалов [22]. Объяснение многих других противоречий, анатомических несоответствий, накопившихся в ЭЭГ и ВП, стало возможным при анализе потенциальных и магнитных полей, а также трехмерной локализации источников при решении ОЗЭЭГ [23].

Компьютерное решение ОЗЭЭГ использовалось при анализе альфа-ритма [24], [25], [26], эпиразрядов [14], [27], [28], вызванных потенциалов [17], [18], но наибольшее число исследований с применением ОЗЭЭГ, особенно на начальном этапе исследований в этой области, представлено для ВП. Этот метод исследования пока не нашел широкого применения в клинике, хотя его применение именно в этой области важно для повышения диагностической ценности ЭЭГ. Следует сказать, что различные подходы к решению ОЗЭЭГ дают, по мнению многих авторов, ключ к анализу функционального картирования мозга [18], [29], [30], [20].

Уточнение модели головного мозга также оказывает влияние на решение обратной задачи. В большинстве работ решение обратной задачи ЭЭГ рассматривается при сильных модельных упрощениях на форму области, на внутреннее строение тензора электропроводности и количество дипольных источников. Важность использования реальной формы головы,

в отличие от широко используемой сферической модельной формы при локализации источников, показана в [32]. При моделировании головы учитывается, что оболочки, окружающие мозг, имеют различную проводимость.

Как правило, численное решение обратной задачи по подгонке диполей приводится к итеративному поиску параметров диполя, для которого достигалось бы лучшее совпадение потенциала на поверхности с ЭЭГ измерениями. Для одного диполя таких параметров шесть. Прямая задача вычисления потенциала по дипольному источнику обычно сводится к решению системы граничных интегральных уравнений методом конечных элементов. При рассмотрении влияния анизотропии электропроводности используют конечно-разностные методы, в связи с чем происходит потеря точности.

В диссертации предлагается метод решения обратной трехмерной задачи ЭЭГ, основанный на решении системы нелинейных уравнений. Метода показывает хорошую точность для случая произвольной (несферической) формы граничных поверхностей и сложной пространственной зависимости электропроводности.

Для решения задачи реконструкции токов предлагается метод расширяющихся сеток, позволяющий локализовать глубинные источники.

Рассмотрим основные методы решения задачи реконструкции токов. Пусть Ф - вектор-строка длины N соответствует измерениям разностей потенциалов на поверхности головы, N - число электродов. Координаты точек измерения задаются iV векторами: {si, S2,..., S/v}. Пусть вектор-столбец J = {jijfr-Зм) - плотность тока в М точках мозга: jk = (jxqJyq,jzq), Я = 1..М. Координаты источников задаются М векторами {щ, щ,..., Ум}- Мат-рица К размера N ЗМ есть матрица перехода. р\,к 2 ), где kpq = (kxpq, kypq, kzpq) - поле в проводнике - р-ая строка матрицы К, р = 1..N.

Например, для бесконечной однородной проводящей среды

к - т v) - Shz3L - _LJmz^L m

и - ^- - 4 ||?р - «Г,||3 іжа || _ «Г,||»- W

где о" обозначается проводимость, a sr - координаты референтного электрода.

В приведенных обозначениях разности потенциалов на поверхности головы при известных координатах точек измерения, координатах источников и известных К и J (прямая задача) могут быть вычислены следующим образом:

Ф = К-Х (2)

Обратная задача в таких обозначениях состоит в определении вектора J, причем неизвестных гораздо больше, чем уравнений, т.е. М > N. Ограничимся пока что простейшей моделью электрической активности головного мозга (1), поскольку любые изменения, связанные с рассмотрением более реалистичных моделей (форма головы, анизотропная проводимость и т.д.) коснутся только матрицы К, что не повлияет на суть методов решения обратной задачи ЭЭГ, описанных ниже.

Для точных измерений Ф решение обратное задачи может быть записано в виде

J = T-, (3)

где матрица Т Є $PMxN есть обобщенная обратная матрица К. Хорошо известно, что описанная обратная задача ЭЭГ имеет бесконечно много решений, т.е. существует бесконечно много обобщенных обратных матриц Т, таких что J = Т Ф и Ф = К J.

Основным вопросом является: по какому критерию выбирать решение обратной задачи, какое из множества решений предпочтительнее дру-

гих? Для получения квазирешения применяются различные методы регуляризации, пять из которых будут рассмотрены в данном обзоре.

В общем задача реконструкции токов сводится к оптимизации функционала

(J) = JTWJ -+ min (4)

при условии Ф = К J для произвольной положительно определенной матрицы W Є sft3Mx3M. Решение этой задачи записывается как

J = Т Ф : Т = W-lKT[KW-lKT}+, (5)

где [.ftrW~1.K':r]+ - псевдообратная матрица Мура-Пенроуза для матрицы [KW~lKT].

Либо же задача сводится к минимизации

Х(Т) = trace[(I - TK)W~\I - ТК)Т], (б)

где / - единичная матрица размера ЗМ х ЗМ. По сути функционал (6) определяет степень отклонения матрицы ТК от единичной (см. (3) и (2)).

Первый метод регуляризации обратной задачи называется критерием минимума нормы [8] и соответствует минимизации функционала (5) с единичной матрицей W = I. Второй метод - критерий взвешенного минимума нормы - соответствует W = fi <8> /, где символ 0 обозначает произведение Кронекера, I - единичную матрицу размера 3 х 3, a Q, - диагональная матрица М х М с элементами uqq(X\,=i k^qkpq)ll2^ q = 1..M.

Электромагнитная томография мозга с низким разрешением [33] -третий метод регуляризации - основан на использовании матрицы W — (Q I)BTB{Vt I), где В - дискретный пространственный оператор Лапласа (способ задания оператора описан в [33]. Заметим, что такой выбор матрицы В приводит к выбору наиболее гладкого решения из всех возмож-

ных. Метод LORETA дает смазанное изображение распределения источников, независимо от того, распределенный источник или локализованный. Перепишем теперь уравнение (2) в виде

з
Ф = KXJX + KyJy + KZJZ = KUJU. (7)

u=l

Здесь индекс и обозначает соответствующую компоненту вектора (x,y,z). Тогда вектор-столбец Jx определится как (jxi,jX2i ---iJxm)- Р-&я строка матрицы перехода Кх Є NxM теперь определяется как хр\, кхр2, кхрм)-1р = 1..N. Векторы Jy и Jz и матрицы Ку и Kz определяются аналогичным образом. Заметим, что уравнения (2) и (7) эквивалентны.

Для каждого из компонентов и = 1,2,3 решение записывается в виде J и = ТиФ, где Ти - соответствующая обобщенная обратная матрица размера М х N. В s-ой точке (s = 1..М) для u-ой компоненты поля

ks = Т^Ф, (8)

где Ts обозначает 5-ую строку матрицы Ти. Тогда из (7) и (8) следует:

Jus = / j ttuvs^vi ("J

v=l

где RuVS = T^SKV - ядро усреднения. Четвертый метод регуляризации [34] состоит в том, что лучшее решение обратной задачи должно обеспечивать совпадение вектора R^vs с 5UVY^, где 5 - символ Кронекера, a Ys обозначает 5-ый столбец единичной матрицы размером М х М:

V(TUS) = [Ys - KTuTus)TWfG[Ys - KTUTUS] + (10)

з + yVl - SvuTlKvK^Tus -* min

v=l

при tLKuOm = 1,

где Ом - матрица размера М х М, составленная из единиц.

Наконец, пятый метод регуляризации WROP, называющийся "оптимизация взвешенного разрешения" [35], заключается в решении следующей задачи:

С(Щ = [Ys - KTUTUS]TW[S\YS - KTUTUS] + (И)

+ Х> - SvuTlKvW^sKjTus -> min,

v=l

где W[s и W^ - диагональные матрицы размера М х М, определенные как

{w[s}ii = \\vi-vs\\2 + (3\ (12)

{w'2s}ii = \\v{ - vs\\2 + p + ot- a' > 0,/?' > 0.

В работе [36] показано, что все описанные здесь методы, кроме LORETA, показывают неудовлетворительные результаты при локализации глубоко расположенных источников. Метод, предложенный в данной диссертации призван устранить указанные недостатки ныне существующих методов.

Обратная задача протеомики рассматривается в главе три. Изучается другая обратная задачи биомедицины - задача определения последовательности аминокислот в пептиде по масс-спектру. Масс-спектр получается в результате проведения эксперимента на масс-спектрометре и представляет собой информацию об относительной интенсивности ионов анализируемого вещества в ловушке масс-спектрометра, получаемых в результате расщепления молекулы вещества при ионизации. В настоящее время продолжаются разработки алгоритмов обработки спектров с целью идентификации последовательностей аминокислот пептидов.

В последнее время изучение молекулярных процессов в живых организмах с помощью анализа белковых структур становится все более востребованным и актуальным. Это связано с стремительным развитием но-

вых отраслей науки таких, как геномика, протеомика и биоинформатика. Разработка новых лекарственных препаратов зачастую обязана удачному анализу белков тканей с патологиями и обнаружению генов-мишеней. Протеомика занимается инвентаризацией белков в клетке. В настоящее время возможно не только считывать последовательности, но и читать и анализировать все модифицированные белки: фосфорилированные, гликозилиро-ванные, процессированные и многие другие. Самое главное то, что возможно прямо в патологически измененных тканях видеть диспропорцию между белками. Протеомный анализ ведется следующим образом. Первый этап — двумерный электрофорез, который дает разделение по молекулярной массе и изоэлектрической точке. Второй этап — анализ белков. Показано, что в патологически измененных тканях содержание некоторых белков увеличено (это имеет значение для онкологии), других — уменьшено. Третий этап —масс-спектроскопия, с помощью которой можно прочитать последовательности этих белков. Следует отметить, что биоинформатика имеет яркую медицинскую направленность. Одним из основных приложений в данной области науки является разработка новых лекарственных средств.

Идентификация белков является ключевым этапом на пути познания биологических процессов и систем. Протеомика изучает белки и их взаимодействие в живых организмах. Свойства и структура белков определяются последовательностью составляющих их аминокислот. Для определения последовательности аминокислот пептида применяются стандартные методы масс-спектрометрии, дающие на выходе масс-спектры пептидов (небольших частей белка). Обратная задача протеомики состоит в определении последовательности аминокислот в пептиде по его масс-спектру; при этом в принятой в диссертации модели каждая аминокислота имеет уникальную массу. Информация о порядке следования аминокислот в пептиде извлекается из масс-спектра при помощи анализа фрагментации пептида в масс-спектрометре.

Существует два подхода к анализу и интерпретации спектров - поиск

по базам данных (database searching) и de novo секвенирование (de novo sequencing). Поиск по базам данных протеинов распространен более широко, чем de novo секвенирование. Поиск осуществляется по базам данных, ищется пептид, теоретически рассчитанный в соответствии с правилами фрагментации спектр которого сравнивается с экспериментальным спектром для обеспечения их наилучшего совпадения. Для определения степени похожести теоретического и экспериментального спектров используются различные схемы (скоринг-схемы) [37]-[45].

Определение пептидной последовательности без использования баз данных протеинов называется de novo секвенированием. Такой подход необходим при идентификации новых белков, идентификации белков, подверженных мутациям, белков, содержащих неописанные ранее пост-трансляционные модификации и т.п. Было создано множество алгоритмов de novo секвенирования, основывающихся на различных математических методах. Самым простым с точки зрения реализации алгоритмом является полный перебор всевозможных комбинаций аминокислот, составляющих заданную массу родительского иона [46], [47]. Все полученные последовательности-кандидаты затем сравниваются с экспериментальным спектром для обнаружения лучшего совпадения. Однако, благодаря погрешностям измерения родительской массы, основной сложностью в данном подходе является экспоненциальный рост числа возможных комбинаций при возрастании массы пептида. Тем не менее, с развитием масс-спектрометрии точность измерения масс увеличилась, и комбинаторное секвенирование на настоящий момент является многообещающим. Например, для массы пептида 1347Da и для точности измерения массы лучше ±lppm (parts per million) существует только около 100 последовательностей-кандидатов. [48]

Другой подход основан на первоначальном рассмотрении только небольших частей последовательности (тэгов) с последующим добавлением аминокислот с обеих сторон тэга до тех пор, пока не

наберется полная масса пептида [49]-[52]. Недостатком такого способа является возможная потеря хороших последовательностей-кандидатов по причине неполной фрагментации, когда некоторые пики в спектре пропущены.

Основной идеей теоретико-графового подхода является представление спектра в виде "спектрального графа"[53]. Каждому пику спектра ставится в соответствие вершина графа, и между двумя вершинами проводится ребро, если разность масс между соответствующими пиками равна массе одной или нескольких аминокислот. Кроме того, в граф добавляются вершины, соответствующие N- и С-терминалям. Последовательности-кандидаты образуются при поиске пути от N-терминали к С-терминали, после чего рассчитываются соответствующие теоретические спектры и производится сравнение с экспериментальным спектром. [43], [54]-[59] Таким образом, задача сводится к задаче нахождения самого длинного пути в направленном ациклическом графе [43], [60], [61].

В работе [62] предложено использовать динамическое программирование для поиска самого длинного асимметричного пути. Динамическое программирование позволяет найти оптимальное решение, которое, однако, в силу нетривиального характера фрагментации пептидов, может не быть правильной последовательностью аминокислот. Тем не менее, в [63] предложен алгоритм поиск субоптимальных решений, которые с большой вероятностью содержат последовательность, породившую экспериментальный спектр. Детали предложенного алгоритма можно найти в [64]. Другие алгоритмы, использующие динамическое программирование, с некоторыми изменениями описаны в [40], [56], [65]

Скрытые марковские модели (СММ) также используются для решения задачи идентификации пептидов [66]. Натренированная СММ определяет модель воспроизведения спектров, которая используется для оценки степени похожести теоретического спектра полученной последовательности-кандидата и экспериментального спектра. Более

того, кроме предсказания хороших последовательностей, СММ позволяет определить достоверность таких предсказаний. Данный алгоритм был реализован в программе de novo секвенирования NovoHMM. Кроме того, байесовский подход используется в программном обеспечении MassSeq компании Micromass, в котором последовательности-кандидаты генерируются случайным образом [67].

Линейный алгоритм секвенирования, сочетающий в себе высокую эффективность и скорость работы, предложен в [68]. Этот алгоритм не основан на теоретико-графовом подходе, но идеологически близок к алгоритму, предложенному в [69]. В дополнение к описанным здесь алгоритма следует заметить, что несколько работ по идентификации пептидов по масс спектру используют также генетические алгоритмы [70], [71] и искусственные нейронные сети [72]. Также для повышения качества идентификации используются изотопные метки [73], техника MSn [74], [75] и предсказание фрагментации пептидов [76].

Несмотря на то, что было осуществлено множество попыток решения задачи de novo секвенирования [40], [53]-[57],[62], [66], [77]-[80], адекватных способов оценки качества подобных алгоритмов на настоящее время предложено не было [81]. Хотя сравнение алгоритмов присутствует практически во всех статьях, посвященных разработке программ идентификации пептидов, независимого исследования эффективности алгоритмов проведено не было. В диссертации представлен анализ производительности пяти существующих наиболее распростаненных и доступных алгоритмов de novo секвенирования: Lutefisk,[54], [55] NovoHMM,[66] PEAKS,[56] PepNovo [77] и AUDENS [65]. Кроме того, введена универсальная мера оценки эффективности алгоритмов идентификации аминокислотных последовательностей. Показано, что предложенная мера не зависит от качества экспериментальных данных.

Структура диссертации следующая. В первой главе описывается модель электрической активности головного мозга и предлагается алго-

ритм локализации дипольных источников. Общая информация о природе электрической активности головного мозга приведена в первом параграфе. Во втором параграфе описывается процесс получения электроэнцефалограммы, обосновывается использование диполыюй модели источников. В третьем параграфе описывается использующаяся модель электрической активности головного мозга. В четвертом параграфе ставится обратная задача ЭЭГ, которая сводится к нахождению правой части неоднородного трехмерного эллиптического уравнения с неоднородными коэффициентами по решению, заданному в точках поверхности, и граничному условию Неймана на этой поверхности. Вариационная формулировка задачи и форма приближенного решения представлены в пятом параграфе. В шестом параграфе предложены алгоритмы локализации диполей, основывающиеся на использовании метода градиентного спуска, метода Ньютона-Рафсона, метода линейного поиска с дроблением шага и метода, основанного на стохастическом выборе направления спуска; исследуется, как сходимость методов зависит от количества разыскиваемых диполей и начального приближения. В седьмом параграфе приведены результаты исследований, описанных в первой главе.

Вторая глава посвящена исследованию и решению задачи реконструкции токов по ЭЭГ данным. Предложен новый метод расширяющихся сеток, позволяющий находить глубинные источники электрической активности головного мозга.

В первом параграфе описаны преимущества метода реконструкции токов перед "подгонкой" диполей. Если мозг продуцирует несколько источников электрической активности, число диполей, координаты и моменты которых подлежат определению, остается неизвестным. Эквивалентный диполь с высокой точностью может аппроксимировать потенциал на поверхности головы, однако действительная локализация источников может оказаться бессмысленной. Метод реконструкции токов относится к методам низкого пространственного разрешения, однако, позволяет получить более

адекватные действительности результаты локализации зон активности головного мозга. Его преимуществом также является простота введения пространственных или иных регуляризирующих ограничение на плотности токов диполей и возможность использования без априорной информации о структуре и местоположении источников.

Во втором параграфе показывается, что задача реконструкции токов может быть сведена к системе линейных уравнений. Обсуждается проблема переопределенности системы уравнений и вводится регуляризирующий параметр а для поиска решений с минимальной нормой \\v\\2. Записывается функционал ошибки аппроксимации экспериментальных измерений и в явном виде выписывается система линейных уравнений. Обсуждается проблема локализации глубинных источников. Потенциал, создаваемый диполем, спадает, как l/R2MP, где Rmp - расстояние от источника до точки измерения. Это приводит к тому, что для удовлетворения условия минимума энергии метод стремится расположить диполи вблизи поверхности проводника, не предоставляя возможности локализовать глубинные источники.

Для нахождения глубинных источников в третьем параграфе предлагается метод расширяющихся сеток. Метод основан на решении нескольких задач реконструкции токов на последовательности специальных сеток в расширяющихся шарах. Первый шар имеет наименьший радиус и расположен около условного центра головы. Узлы сетки располагаются равномерно внутри головы с заданным шагом h внутри сферы радиуса Rc. На каждой из сеток решается система линейных уравнений, и определяется значение функционала ошибки. Если источник был локализован в глубине мозга, минимум функционала ошибки будет достигаться на соответствующей сетке с небольшим радиусом Rc. Предложенный метод выбора решения является своего рода пространственной регуляризацией задачи, позволяющим получить решение, на котором достигается минимум ошибки аппроксимации потенциала на поверхности головы.

Параграф четыре посвящен описанию частотных характеристик ЭЭГ сигнала. Еще недостаточно четко установлено: одна нейронная популяция продуцирует один частотный диапазон, и различные частотные диапазоны связаны с различными нейрональными системами, или, наоборот, одна нейронная популяция может продуцировать разные частоты в зависимости от условий. Подчеркивается важность локализации источников электрической активности в различных частотных диапазонах.

Описание эксперимента, в процессе которого регистрировалась ЭЭГ человека в трех различных состояниях умственной деятельности, приведено в пятом параграфе. Экспериментальные ЭЭГ были подвергнуты частотной фильтрации для выделения интересующих исследователей частотных диапазонов. Были получены соотношения средних амплитуд сигналов по различным каналам отведения для 7 частотных диапазонов: рассматривалась ЭЭГ, регистрируемая в процессе запоминания и ЭЭГ в состоянии покоя.

В шестом параграфе метод расширяющихся сеток применяется для решения задачи выделения признаков специфической ментальной активности человека. Во время фоновой активности активные зоны располагаются в затылочной области. В процессе запоминания информации электрическая активность перемещается в область гиппокампа. Таким образом, предложен способ выделения признаков специфической ментальной активности (запоминания информации), основывающийся на использовании метода расширяющихся сеток для локализации источников электрической активности головного мозга. В параграфе 7 приведены основные выводы по второй главе.

Обратная задача протеомики рассматривается в третьей главе. Идентификация белков является ключевым этапом на пути познания биологических процессов и систем. Протеомика изучает белки и их взаимодействие в живых организмах. Свойства и структура белков определяются последовательностью составляющих их аминокислот. Для

определения последовательности аминокислот пептида применяются стандартные методы масс-спектрометрии, дающие на выходе масс-спектры пептидов (небольших частей белка). Обратная задача протеомики состоит в определении последовательности аминокислот в пептиде по его масс-спектру; при этом в принятой в диссертации модели каждая аминокислота имеет уникальную массу. Информация о порядке следования аминокислот в пептиде извлекается из масс-спектра при помощи анализа фрагментации пептида в масс-спектрометре.

Первый параграф содержит описание методики идентификации протеинов при помощи тандемной масс-спектрометрии. Рассматриваются два подхода к идентификации пептидов при помощи масс-спектров.

Во втором параграфе приведена постановка задачи идентификации пептидов по масс-спектрам. Вводятся понятия разрывов аминокислотной последовательности различных типов, приводятся формулы для расчета масс соответствующих фрагментов. Приводится математическая постановка задачи, которая сводится к максимизации функционала.

Третий параграф содержит описание предложенного алгоритма de novo секвенирования пептидов, основанного на представлении масс-спектра в виде спектрального графа. Математически задача состоит в поиске пути в ациклическом направленном графе, вершины которого соответствуют массам фрагментов. Между двумя вершинами проводится ребро, если расстояние между соответствующими пиками в спектре совпадает с массой какой-либо аминокислоты. Исследуется эффективность алгоритма. Результаты работы предложенного алгоритма приведены в четвертом параграфе.

В параграфе 5 предлагается использовать относительное пептидное расстояние как меру эффективности алгоритмов идентификации пептидов. Рассматриваются пять наиболее распространенных алгоритмов идентификации пептидов. Показано, что наиболее частой ошибкой алгоритмов секвенирования является замена фрагментов эквивалентных масс длины

2.

В шестом параграфе исследуется возможность использования чувствительности и положительной предсказательной способности в качестве универсальных мер оценки производительности алгоритмов. Показано, что чувствительность может быть использована как адекватная мера оценки алгоритмов идентификации пептидов, в то время как положительная предсказательная ценность может быть рассмотрена лишь как дополнительная мера оценки, поскольку зависит от качества спектров.

Седьмой параграф посвящен исследованию зависимости качества идентификации пептидов от качества экспериментальных спектров, рассматриваются две схемы оценки качества спектров. Предлагается алгоритм, по которому могут быть отброшены экспериментальные данные плохого качества, непригодные для качественной идентификации пептидов. В параграфе 8 приведены основные выводы по третьей главе.

В заключении приведены основные результаты диссертации.

Основные результаты работы опубликованы в работах [82] - [89].

Математическая модель нейронных источников электри ческой активности головного мозга

Электрическая активность мозга человека регистрируется при помощи электроэнцефалографа: снимается разность потенциалов между референтным электродом и электродами, расположенными на поверхности головы (см. рис. 1.2). Такой неинвазивный метод предоставляет данные с очень хорошим временным разрешением, а также физиологическую информацию, которая сильно коррелирована с человеческими чувствами, характером и процессом познания. Электроэнцефалограмма (ЭЭГ, см. рис.1.4) позволяет нейрофизиологам изучать динамику развития мозга человека, установить взаимосвязи между популяциями нейронов в коре головного мозга и высшей мозговой деятельностью.

Традиционными областями применения метода ЭЭГ являются диагностика эпилепсии и оценка деструктивных нарушений мозга. Для лечения эпилепсии (особенно хирургическим путем) очень важно знать точную объемную локализацию эпилептического процесса, знать, какие структуры мозга вовлекаются в этот процесс, какие структуры нужно активизировать, а какие подавлять. Таким образом, необходимо обладать знания ми о том, как мозговые волны связаны со структурами мозга, необходимо точно определять расположение источников активности. Для этого нужно использовать точные методы локализации, которые дают наименьшую погрешность локализации. В следующем параграфе описана модель электрической активности головного мозга и один из точных методов локализации источников.

Человеческий мозг представляется в виде объемного проводника электрического тока. Пусть V0i - некоторый объем представляющий собой голову, a Stot - поверхность скальпа. Источниками электрической активности являются электролитические токи внутри нервных клеток коры головного мозга [3].

В проводящей среде справедлив закон Ома, который записывается следующим образом: j = Jin + г(г) Е (1.1) где jjn плотность внутренних источников тока. Транс-мембранная плотность токов создается в связи с синаптической активностью нейронов. Источники тока расположены в проводящей среде с неоднородной проводимостью о-(г). Ионные токи, происхождение которых обусловлено химическими реакциями, в объёме мозга порождают электрическое E(f, t) поле, которое подчиняется уравнениям Максвелла и закону Ома.

В [93] показано, что временная и пространственная части могут быть отделены друг от друга. Пространственная часть может быть вычислена в каждый момент времени t в соответствии с уравнением стационарности электрического тока:

Сформулируем обратную задачу ЭЭГ. Пусть имеется объем V0\ с набором сторонних источников тока внутри него. Объем ограничен поверхностью Sfteas, в точках которой измеряется потенциал электрического поля Uexp. Объем проводника разделен на К слоев с различными электропровод-ностями а ,к = 1,2, ...,К. Поверхности раздела обозначим Sk,k = 1..К. Последняя поверхность SK С номером к — К совпадает с S eas.

На поверхности проводника в некоторых точках проводятся измерения разностей потенциала между референтным электродом и электродами, расположенными по системе "10 — 20%". Будем моделировать эти измере ния потенциалом U, который представим в виде суммы: U(r,t) = W(r,t) + Vk(r,t) (1.11) здесь Vh(r, t) - потенциал индуцированного поля в к-ом слое, который создается из-за наличия границ и неоднородной электропроводности. Будем считать проводимость кусочно-постоянной функцией трех переменных

При учете проводимости области вне головы (проводимость электродного геля, учета других проводящих слоев вне скальпа) задача рассматривается в неограниченной области.

Математически обратная задача ЭЭГ сводится к нахождению правой части неоднородного трехмерного эллиптического уравнения (1.6) с неоднородными коэффициентами по решению U, заданному в точках поверхности Sj eas, и граничному условию Неймана на этой поверхности. Дипольная модель источников накладывает ограничения на класс допустимых решений обратной задачи.

Для численного решения обратной задачи используются граничные условия в виде условий минимума функционалов ошибки: ef (Р\ ,..., » r% r\..., rf») = Wa\J VKf - mm (1.17) s«(0\ v\..., 0 , 4,4,..., rf") = \\d[Wd+nVli]f - mm (1.18)

Задача состоит в определении величин и координат диполей и, гр для наилучшего приближения потенциала Umodd = W(v,rp) + V#(r) на поверхности скальпа S eas к экспериментально измеренному распределению потенциала Uexp путем минимизации функционала о — \ + 2

Для решения обратной задачи требуется определить координаты расположения диполей Гр и величину дипольных моментов v\ которые удовлетворят граничным условиям и условиям сшивки (1.13)-(1.15).

Обсудим постановку задачи. Обычно стоит краевая задача уравнения Пуассона (с дипольными источниками в правой части уравнения) с двумя граничными условиями на поверхности скальпа. Для заданного распределения потенциала на поверхности существует множество соответствующих конфигураций источников, создающих такой потенциал. Таким образом, необходимо как-то ограничить множество источников для того, чтобы задача имела единственное решение. Ограничения могут быть пространственные - в виде расположения диполей - или энергетические - в виде условий на величины моментов. Необходимо учитывать некоторую априорную информацию о диполях, например, невозможность расположения источников электрической активности в белом веществе головного мозга.

Кроме того, заметим, что мы располагаем большим количеством дополнительной информации в виде зависимости потенциала на поверхности от времени. Для записанного уравнения Пуассона это означает, что мы располагаем множеством правых частей, соответствующих разным моментам времени. Неизвестное расположение диполей и их моменты должны находиться таким образом, чтобы удовлетворять всем заданным на поверхности функциям в смысле наименьших квадратов.

Используя формулировку обратной задачи для дискретных пространственно-временных данных, мы можем переписать граничные условия в виде функционалов. Обозначим UeXp{fii,ipj,ti) потенциал на поверхности, измеренный на некотором отрезке времени 0 ti Т (I = 0,1,2, ..L) и I - номер временного окна. Для каждого окна 7) = Т/1. Предполагается, что на протяжении окна расположение диполя не меняется.

Одним из основных является предположение о том, что временной ЭЭГ-сигнал может быть представлен дипольными источниками, не перемещающимися некоторый промежуток времени.

Вариационная формулировка задачи и форма приближен ного решения

Для уверенного поиска параметров был реализован адаптивный метод выбора коэффициентов as, называемый дроблением шага. Если (1.32) выполняется, то as = а. Если же (1.32) не выполняется, то делается попытка сделать шаг CQ = Ха, А Є (0,1). Процесс продолжается до тех пор, пока (1.32) не выполнится, либо останавливается.

На рис. 1.8 изображен процесс сходимости для локализации одного диполя градиентным методом. Рис. 1.9 иллюстрирует этот процесс на плоскости двух переменных с изображенными линиями уровня ошибки. Виден сильно выраженный овражный эффект, затрудняющий поиск глобального минимума. Эффективность метода сильно зависит от выбора начального приближения, сходимость носит локальный характер.

На рис. 1.10 показано изменение потенциала в некоторых точках в процессе решения задачи. Видно, что одного диполя не достаточно для аппроксимации такого экспериментального распределения потенциала. На это указывает расхождение значений модельного и экспериментального потенциала в точках ТЗ и F3, которые соответствуют левой височной и лобной областям коры. Рис. 1.11 показывает, к чему сходится итерационный процесс. Добавление второго диполя приведет к увеличению числа переменных до 12, что делает использование метода градиентного спуска неэффективным из-за чрезвычайно малой области сходимости. Очевидно, необходимо использовать быстрые глобальные методы оптимизации, чему посвящены следующие параграфы.

Для решения системы (1.29) используется модифицированный метод Ньютона-Рафсона [94], в котором якобиан вычисляется только на первой итерации, что дает существенный выигрыш по времени для больших систем. На к-ой итерации необходимо решить:

Якобиан вычисляется не на каждой итерации, что сокращает время вычислений.

В связи с тем, что функционал обладает овражными эффектами, сходимость метода Ньютона сильно зависит от начального приближения. Однако для небольшого числа параметров порядка шести метод показывает хорошую сходимость к решению. Преимуществами метода Ньютона является q-квадратичная сходимость [95] вблизи локального минимума. Однако отсутствие глобальной сходимости и необходимость вычисления якобиана на каждой итерации (помимо того, что система линейных уравнений 1.33 может оказаться вырожденной или плохо обусловленной) делает метод Ньютона мало эффективным при решении задачи локализации источников электрической активности головного мозга. Метод, обладающий глобальной сходимостью, описан в следующем параграфе.

Эмпирически на модельных задачах была установлена область сходимости метода Ньютона для шести параметров, то есть одного диполя: метод сходится при среднем начальном отклонении 8%. То есть для выбора начального приближения сначала необходимо вычислить значение функционала ошибки на трехмерной сетке с шагом 0.08, т.е. решить около 2000 прямых задач. Процесс сходимости для 3, 4 и 6 параметров приведен на рис. 1.5,1.6,1.7.

Следует заметить, что при использовании метода Ньютона хорошее начальное приближение дает квадратичную сходимость. Удачно выбранное начальное приближение позволяет добиться точности порядка 0.01% за 3-4 итерации.

Хотя метод Ньютона является локально q-квадратично сходящимся, зачастую бывает достаточно трудно достичь достаточной близости к решению, чтобы реализовалась высокая скорость сходимости. Если имеется достаточно хорошее текущее приближенное решение, то оно будет быстро и с относительной легкостью улучшено.

Основная идея построения успешно работающих нелинейных алгоритмов заключается в таком комбинировании стратегии глобальной сходимости со стратегией высокой локальной сходимости, при котором извлекается польза из них обеих. Наиболее важный момент состоит в попытке на каждой итерации сначала попробовать метод Ньютона или некоторую его модификацию. Если кажется, что берется приемлемый шаг, то нужно применить именно его. Если же - нет, то обратиться к шагу, который предписывается глобальным методом. Такая стратегия будет всегда заканчиваться использованием вблизи от решения метода Ньютона, и поэтому будет сохранять высокую скорость его локальной сходимости. Если глобальный метод надлежащим образом выбирается и включается в общую схему, то алгоритм также будет глобально сходящимся. Алгоритмы, использующие этот подход, называются квазиньютоновскими.

Метод расширяющихся сеток для регуляризации решения задачи реконструкции токов

ЭЭГ сигнал представляет собой колебания в диапазоне частот 0.5 — 70Гц. Различные частотные диапазоны ЭЭГ связываются с различными состояниями здорового человека. Частотные составляющие ЭЭГ меняются в зависимости от различных факторов, под влиянием препаратов. Многочисленные исследования подтверждают это положение, примерами являются бодрствование и сон с доминированием соответственно частой и медленной активности, прием антидепрессантов, усиливающих активность в бета-диапазоне (13 — 32Гц) и т.п.

В работе [97] было отмечено, что еще недостаточно четко установлено: одна нейронная популяция продуцирует один частотный диапазон, и различные частотные диапазоны связаны с различными нейрональными системами, или, наоборот, одна нейронная популяция может продуцировать разные частоты в зависимости от условий. Поэтому практический интерес возникает у исследователей к анализу локализации генераторов для различных частотных диапазонов. Анализ карт мощности диапазонов, вообще говоря, не ведет к локализации их генераторов, так как: распределение мощности в картах зависит от референциалыюго отведения, само картирование дает максимальную выраженность активности на поверхности головы, но это не означает, что в этом месте она и генерируется, карта мощности может зависеть и от ориентации источника по отношению к отводящим электродам, что в ряде случаев может привести к неправильной парадоксально "латерализации" процесса.

Поэтому локализации источников необходимо проводить в различных частотных диапазонах. Было показано [31], что применение программ трехмерной локализации источников различных частотных диапазонов ЭЭГ позволило установить ряд фактов, которые согласуются с известными данными об их расположении и дополняют их. В подобных исследованиях рассматриваются следующие диапазоны частот (Табл. 2.1):

Описанный выше метод расширяющихся сеток применялся для локализации источников электрической активности головного мозга в процессе запоминания информации различными испытуемыми. Целью эксперимента было исследование возможности уверенного устойчивого определения признаков специфической ментальной активности по ЭЭГ. Помимо использования общеизвестных фактов о депрессии альфа-ритма при мозговой активности, была предпринята попытка связать процесс запоминания с возбуждением какой-либо области мозга.

Эксперимент состоял из трех этапов. На первом этапе пациент находился в расслабленном спокойном состоянии с открытыми и закрытыми глазами. Таким образом регистрировалась фоновая активность головного мозга при открытых/закрытых глазах в течение 30-40сек. На втором этапе (этапе "запоминания") испытуемому предлагалось запомнить последовательность появляющихся на экране компьютера точек, которая предъявлялась ему три раза. В процессе запоминания (в течение ЗОсек.) записывалась ЭЭГ пациента. Наконец, на последнем этапе участнику эксперимента предлагалось при помощи компьютерной мыши восстановить последовательность появлявшихся точек. Если пациент правильно указывал место появление следующей точки, она окрашивалась зеленым. Если координаты предсказанной точки были близки к правильным, то желтым; если же координаты сильно отличались от правильных - то красным цветом. Таким образом, испытуемый знал о том, правильно ли он предсказал появление точки. На последнем этапе ЭЭГ регистрировалась в течение ЗООсек. На рис. 2.6 - рис. 2.8 представлены характерные записи ЭЭГ для трех перечисленных этапов эксперимента. Частота оцифровки составляла 128, шаг по времени между отсчетами г = 7.8мсек. В состоянии спокойного бодрствования с закрытыми глазами (рис. 2.6) наибольшая активность локализована в затылочной области, преобладает а-ритм, у него наибольшая амплитуда. В процессе запоминания (рис. 2.7) и в процессе воспроизведения информации (рис. 2.8) заметно угнетение альфа-ритма.

Экспериментальные ЭЭГ были подвергнуты частотной фильтрации для выделения интересующих исследователей частотных диапазонов. На рис. 2.10 показаны отношения средних амплитуд сигналов по различным каналам отведения для 7 частотных диапазонов: рассматривалась ЭЭГ, регистрируемая в процессе запоминания и ЭЭГ в состоянии покоя. Видно, что в процессе запоминания информации наибольшая активность по сравнению со спокойным состоянием регистрировалась на каналах ТЗ и Т4 в частотном диапазоне / (20 —32Гц). Также заметна активность на каналах СЗ и РЗ в - -диапазоне (4 — 5.5Гц). В спокойном состоянии с закрытыми глазами наибольшая активность проявляется на каналах 01, 02, РЗ и Р4 в ( -диапазоне (10 — 13Гц). Кроме того, видно, что процесс запоминания связан с заметным угнетением альфа-ритма.

В каждом из описанных диапазонов частот был проведен анализ изменения средних амплитуд сигнала с течением времени. Сигнал разбивался на окна по 4сек. (512 отсчетов), в каждом окне вычислялась амплитуда. На рис. 2.11 показаны амплитуды для всех семи частотных диапазонов для спокойного состояния пациента, на рис. 2.12 - для состояния в процессе запоминания.

Результаты идентификации пептидов при помощи предло женного алгоритма

В работе был использован статистический подход при определении скоринг-функции. Было проанализировано 1405 спектров, полученных на QTOF масс-спектрометре, любезно предоставленных коллегами из университета Purdue, (West Lafayette, USA). Тренировочный набор спектров содержал 700 спектров. В каждом спектре производилась маркировка пиков, поскольку исходные аминокислотные последовательности для них были известны. Создавалась таблица статистики присутствия ионов различного типа в спектрах. Результаты статистического анализа приведены в табл. 3.1. Жирным шрифтом выделены типы ионов, которые присутствуют в спектрах в более, чем 90% случаев. Подчеркнуты типы ионов, которые редко образуются в процессе фрагментации.

Данная статистика позволила построить скоринг-функцию, наиболее точно настроенную на характер фрагментации пептидов в масс-спектрометре, использовавшемся для анализа. Так, очевидно, при определении правильной последовательности наибольшее внимание стоит уделять ионам Ь— и у—типа с потерей воды/аммиака и без, а, например, тяжелые с—ионы не следует учитывать при подсчете скорииг-функции.

Примеры спектра и спектрального графа изображены на рис. 3.2. и 3.3. Спектральный граф получен после предварительной обработки спектра, поэтому число вершин в нем невелико. Однако и на этом примере видно, что возможно несколько вариантов получения последовательности.

Исследования показали, что важнейшую роль в определении правильной последовательности аминокислот играет способ задания скоринг-функции. Алгоритм получения последовательностей-кандидатов из спектрального графа в большинстве случаев выдает искомую последовательность, которая в дальнейшем неверно оценивается на этапе подсчета скоринга. Очевидно, недостаточно учитывать только совпадение позиций пиков, поскольку при фрагментации образуется большое число ионов разных типов, что может привести к ошибочному результату. Восстановление последовательности производится по "Ь"-или "у"-ионам, и если ион ошибочно относится к ионам этого типа, происходит ошибка. Для правильной оценки последовательности необходимо использовать информацию об интенсивностях пиков в спектре, чтобы производить сравнение не только по массам ионов но и по распределению интенсивностей. Наиболее перспективным здесь видится моделирование фрагментации пептида в ловушке масс-спектрометра с использованием кинетической модели [106]-[109]. Статистические способы расчета интенсивностей обладают неполнотой данных в связи с огромным разнообразием пептидных последовательностей.

После построения скоринг-функции были проанализированы остальные 705 спектров, на которых был достигнут результат 18.5% точной идентификации. Данный результат превышает процент точной идентификации свободно распространяемых аналогичных программ (AUDENS, NovoHMM, Lutefisk), однако не превысил порога 20%, что свидетельствует о несовершенности прямой модели фрагментации пептидов.

Относительное пептидное расстояние (RSD) между полученной de novo последовательностью и последовательностью из базы данных протеинов вычислялось согласно алгоритму, описанному в [110]. Расстояние редактирования между de novo последовательностью и настоящей последовательностью рассчитывалось с использованием динамического программирования. RSD принимает значения от нуля до единицы. Ноль соответствует тому, что de novo последовательность полностью совпадает с искомой, единица означает, что полученная последовательность не имеет с искомой ничего общего.

При вычислении RSD допускается наличие эквивалентных замен различной длины L с точностью 0.3Da. Эквивалентные замены аминокислот являются результатом совпадения масс на этапе de novo секвестрования, когда алгоритм не способен различить фрагменты одинаковой массы. Например, масс фрагмента GG в точности совпадает с массой аминокислоты N, и зачастую в спектре не достаточно информации, чтобы отдать предпочтение тому или иному варианту. Такие замены при вычислении RSD называются эквивалентными. Например, для максимальной длины эквивалентной замены L = 2 de novo последовательность будет считаться совпадающей с последовательностью из базы данных, если: 1) требуются две или менее аминокислотных эквивалентных замены для переведения de novo последовательности в последовательность из базы данных; и 2) сумма масс заменяющих аминокислот совпадает с суммой масс заменяемых аминокислот.

Похожие диссертации на Разработка алгоритмов для решения обратных математических задач, возникающих в биомедицине