Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Методы и программные средства для обработки данных электроэнцефалографии Попова Елена Александровна

Методы и программные средства для обработки данных электроэнцефалографии
<
Методы и программные средства для обработки данных электроэнцефалографии Методы и программные средства для обработки данных электроэнцефалографии Методы и программные средства для обработки данных электроэнцефалографии Методы и программные средства для обработки данных электроэнцефалографии Методы и программные средства для обработки данных электроэнцефалографии Методы и программные средства для обработки данных электроэнцефалографии Методы и программные средства для обработки данных электроэнцефалографии Методы и программные средства для обработки данных электроэнцефалографии Методы и программные средства для обработки данных электроэнцефалографии Методы и программные средства для обработки данных электроэнцефалографии Методы и программные средства для обработки данных электроэнцефалографии Методы и программные средства для обработки данных электроэнцефалографии
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Попова Елена Александровна. Методы и программные средства для обработки данных электроэнцефалографии : диссертация ... кандидата физико-математических наук : 05.13.11 / Попова Елена Александровна; [Место защиты: Моск. гос. ун-т им. М.В. Ломоносова].- Москва, 2008.- 114 с.: ил. РГБ ОД, 61 09-1/497

Содержание к диссертации

Введение

Глава 1. Метод ансамблей деревьев решений для анализа электрической активности мозга человека 24

1.1. Постановка задачи локализации нейронных источников 24

1.2. Сведение задачи локализации к задаче классификации . 29

1.3. Алгоритм построения классификатора для определения зон электрической активности 31

1.3.1. Алгоритм построения дерева решений 32

1.3.2. Алгоритм голосования классификаторов 34

1.4. Сходимость и определение основных параметрических зависимостей предложенного метода 36

Глава 2. Параллельные алгоритмы и программный комплекс обработки данных ЭЭГ. 42

2.1. Определение требований к программному комплексу об

работки сигналов ЭЭГ 42

2.2. Структура программного комплекса локализации ней ронных источников электрической активности 44

2.2.1. Базовые классы основных модулей программного комплекса 46

2.3. Анализ производительности последовательного алгорит ма решения обратной задачи ЭЭГ 52

2.4. Параллельный алгоритм построения ансамблей деревьев решений 55

2.4.1. Анализ эффективности МРІ-реализации параллельного алгоритма локализации источников. 61

2.4.2. Многонитевая реализация параллельного алгорит ма локализации нейронных источников 65

Глава 3. Использование комплекса программ по обработке сигнала ЭЭГ при исследовании нейрофизиологических проблем восприятия . 69

3.1. Алгоритм построения пространственно-усредненных карт активности нейронных дипольных источников 69

3.2. Задача определения пространственных нейронных структур мозга, участвующих в обработке зрительной информации 74

3.3. Протокол нейрофизиологического эксперимента, цели математической обработки экспериментальных данных. 76

3.4. Построение временных карт активности нейронных ис точников и их сравнение для различных стадий экспери мента 79

3.4.1. Выбор масштаба временного окна для построения пространственно-временных карт 79

3.4.2. Построение пространственно-временных карт активности для фоновой ЭЭГ и при возникновении у испытуемого зрительно-иллюзорного образа 81

3.4.3. Сравнение областей возникновения вероятных источников активности для всех фрагментов сигнала ЭЭГ 84

3.4.4. Определение проекции усредненных зон активности дипольного источника на реальную геометрию мозга 85

3.5. Сравнение разработанных алгоритмов локализации ис точников с существующими методами 86

Заключение 95

Приложение 96

Список литературы

Введение к работе

Исследованию проблем, связанных с функционированием человеческого мозга, всегда уделялось большое внимание со стороны специалистов из разных научных областей. Важная роль в решении возникающих задач отводится методам автоматизированной обработки сигналов, измеряемых при изучении человеческого мозга. Одно из важных направлений в изучении человеческого мозга связано с исследованиями его электрической активности, регистрируемой в виде сигнала электроэнцефалограммы (ЭЭГ). Ключевое место в этой проблеме занимает задача локализации источников. Определение зон активности открывает новые возможности для проведения диагностирования и лечения заболеваний, исследования реакций мозга на внешние воздействия, исследования проблем восприятия человеком внешнего мира.

Определение зон активности коры головного мозга при реакциях на различные внешние воздействия широко используется при создании интерфейса мозг-компьютер (Brain-Computer Interface). В нейрофизиологических исследованиях на основе ЭЭГ проводятся важнейшие эксперименты по выявлению реакции мозга на поступающие образы. Получая оценку функционального состояния работы мозга, нейрофизиологи выявляют принципы и механизмы внутреннего взаимодействия компонент мозга. Практическое внедрение новых программных систем, на основе новых информационных технологий позволяет дать дополнительные новые инструменты для понимания нейрофизиологами проблем восприятия человеком внешнего мира.

Принципиальную роль в этих исследованиях играет автоматизированный анализ данных ЭЭГ.

Нейронная система мозга представляет собой очень сложный объект, содержащий приблизительно 1014 нейронов, которые в совокупности отражают функциональное состояние мозговой активности. Судить о реакции мозга мы можем по измерениям потенциала на поверхности головы, которые являются мпогомодовыми, т.е. отражают реакцию мозга на

разные сенсорные рецепторы - зрительные, слуховые, ментальные, двигательные и др. В полученном экспериментальном сигнале содержится несколько ритмов, которые отвечают за разный тип активности, и результат их взаимодействия. Главной особенностью экспериментальных данных, изучаемых в диссертации, является то, что они получены внешними по отношению к объекту диагностиками. Необходимо определить внутренние источники этих сигналов, чтобы понять модели, лежащие в основе этих данных.

Причиной развития параллельных алгоритмов в задачах локализации источников служат масштабы разрабатываемых моделей человеческого мозга. От общих многослойных моделей исследователи переходят к моделированию максимально приближенным к конкретному испытуемому анатомических структур мозга и описанию более сложных процессов электрической активности, происходящих на микро-уровне. В связи с этим число элементов в рассматриваемой структуре возрастает в несколько раз, что требует увеличения вычислительных ресурсов для микро-моделирования. Создание новых поколений многопроцессорных вычислительных систем, содержащих сотни тысяч процессорных элементов, позволяет ставить новые задачи по прямому моделированию работы мозга.

Все это приводит к необходимости разработки новых алгоритмов и программных комплексов для обработки данных измерений, связанных с активностью и строением мозга. Основное, что предлагается в диссертации - это метод, основанный на использовании ансамблей деревьев решений и программный комплекс, построенный на базе этого метода для поиска источников анализируемых сигналов электрической активности головного мозга.

Цель диссертации.

Разработка алгоритмов и программных средств, реализующих автоматизированное построение пространственно-временных карт активности мозга по данным ЭЭГ. Целями диссертации являются:,

1. Разработка алгоритмов и программных средств, реализующих автоматизированное построение пространственно-временных карт активности мозга на основе метода случайных деревьев решений.

  1. Разработка параллельных алгоритмов и программного комплекса ансамблей деревьев решений для автоматизированного анализа больших баз экспериментальных данных исследований мозга на параллельных высокопроизводительных вычислительных системах.

  2. Применение разработанных программных средств для анализа оценки функционального состояния мозговой деятельности в нейрофизиологических экспериментах.

Диссертация состоит из введения, трех глав, заключения, списка литературы и приложения, содержащего рисунки.

Первая глава посвящена построению нового метода анализа сигналов ЭЭГ на основе ансамблей деревьев решений. Главной особенностью предложенного метода является сведение задачи локализации нейронных источников внутри мозга к задаче классификации признаков источников с использованием комитета голосующих классификаторов, обученных на входном сигнале ЭЭГ.

Судить об активности мозга можно с помощью нескольких диагностик: получение данных об электрической активности (ЭЭГ), о магнитной активности (МЭГ), измерение электромагнитного отклика атомов водорода на возбуждение их определенной комбинацией электромагнитных волн в постоянном магнитном поле высокой напряженности (МРТ), измерение резонансного поглощения электромагнитной энергии (ЯМР). В диссертации рассматривается метод обработки данных электрической активности мозга.

Электрическая активность регистрируется в виде электроэнцефалограммы (ЭЭГ). Электроэнцефалограммой [2] называется запись слабых (порядка 5-100 //V) электрических потенциалов, генерируемых мозгом. ЭЭГ-сигнал представляет собой разность потенциалов между электродами, размещенными на поверхности головы.

В основе обработки сигнала ЭЭГ лежат две методики. Первая состоит в анализе временных рядов, выделении амплитудно-частотных характеристик ритмов ЭЭГ сигнала, исследовании их корреляции и взаимодействия. Вторая - в нахождении (локализации) активных групп нейронов в мозговой структуре, которые формируют регистрируемый по-

тенциал на поверхности. В диссертации рассматривается модель нейронной электрической активности, основанная на предположениях о нейронных клетках как источниках (генераторах) электрического тока. Мозг моделируется как некий объемный проводник с неоднородной электропроводностью с имплантированными в него диполями. Прямая задача состоит в вычислении трехмерного электрического поля, создаваемого источниками-диполями [6]-[8]. Полученное решение - потенциал электрического поля на поверхности головы - моделирует измеряемый в эксперименте с помощью электродов потенциал электрического поля. Делая различные предположения о распределении и числе диполей, можно добиваться совпадения экспериментального потенциала с модельным. Обратная задача ЭЭГ состоит в определении положений источников по измеренным потенциалам на поверхности головы [9]-[11]. Для решения обратной задачи требуется решение большого числа прямых задач [12].

Так как задача является некорректно поставленной (для одного и того же распределения потенциала на поверхности головы существует бесконечно много комбинаций активных дипольных источников), то большинство методов вводят специальные функции и параметры для внесения ограничений на рассматриваемую модель с целью определения единственного решения.

Существует два подхода при решении задачи локализации источников. Первый подход "распределенных источников" основан на фиксированном расположении большого числа диполей (около 10000): обратная задача сводится к отысканию их силы тока [9],[13]-[16]. Несмотря на хорошую точность, которую можно достигнуть, рассматривая все возможные зоны внутренней поверхности головы, задача выявления единственной комбинации для большого числа диполей является весьма сложной, и эффективных методов определения единственного решения для такого числа источников не существует. Поэтому большинство подходов используют дополнительные априорные ограничения на рассматриваемую область возможных положений источников [103]. Среди известных подходов можно отметить регуляризационный параметр Тихонова[97], анатомические ограничения расположений диполей на поверхности коры головного мозга [98], исключение из рассмотрения глубинных источников и математические

ограничения, такие как выбор минимального значения энергии на поверхности или максимума непрерывной производной решения[100]. Статистические подходы, основанные на Байесовском правиле [103] или энтропийном анализе [103], также используют априорную информацию о функциональной роли областей мозга и анатомических ограничениях путем введения вероятностных коэффициентов.

В другом случае, подходе "эквивалентного диполя", задается небольшое число источников (обычно от 1-3) и неизвестными считаются как сила, так и расположения источников. Можно выделить несколько базовых алгоритмов параметрического подхода решения обратной задачи.

Методы, основанные на алгоритме Beamformer [95] выполняют пространственную фильтрацию сигнала ЭЭГ от датчиков регистрации для классификации активных и неактивных источников. Алгоритм отслеживает сигнал от заданного положения дипольного источника, исключая из рассмотрения другие источники, также требует задания ограничения на значения вектора силы дипольного источника. Активность неусчтойчи-вой и взаимосвязанной нейронной структуры отражается в многомодо-вом сигнале, который невозможно описать набором независимых одинаковых источников, что является причиной ложных локализаций зависимых истчоников методом LCMV Beamformaer[95].

Известная модель многократной классификации сигнала MUSIC (Multiple Signal Classification) [12] определяет алгоритм поиска источников, являющихся независимыми друг от друга во времени. Алгоритм основан на "сканировании" проекции одного дипольного источника на подпространство сигнала. Итеративная процедура локализации заключается в нахождении корреляции между модельным подпространством и подпространсвом данных, которая с свою очередь задается метрикой проекций. Активность, которая не может быть приписана к источнику в фиксированном расположении рассматривается как шум.

Класс алгоритмов, рассматриваемых в диссертации, относится к методам Least-Squares Source Estimation (LSSE, метод наименьших квадратов поиска источника). В данном случае обратная задача сводится к минимизации функционала невязки между модельным и экспериментально измеренным потенциалом. Для минимизации

функционала приближения используются методы вычислительной математики (адаптированные градиентные методы) [ЮЗ], математической статистики для оценки вероятностных интервалов параметров активных источников [112], методы случайного поиска (Монте-Карло, генетический алгоритм) [11]. Неединственность решения в случае модели эквивалентных источников также присутствует, поэтому используются ограничения на рассматриваемую область расположения источников, на основе исходного распределения потенциала на поверхности головы и снимков МРТ конкретного человека. Используя LSSE подход, необходимо задавать число локализуемых дипольных источников априори - это является основным его недостатком. Также при рассмотрении многодипольных моделей число вариантов параметров диполей, соотвествующих входному сигналу возрастает экпонентациально, и число ложных обнаружений источников (локальных минимумов) увеличивается. Разработанный в диссертации метод относится к данному классу параметрических алгоритмов с минимальными априорными ограничениями на пространство решений. Недостатками существующих методов LSSE являются: зависимость решения от начального приближения, параметрическая зависимость при регуляризации, определение ложных траекторий движения диполей (искусственное ограничение на изменения положения источников), значительная вычислительная сложность при рассмотрении многодипольных моделей. Стохастические методы поиска минимальной невязки между модельным и экспериментальным сигналом (генетический алгоритм, Монте-Карло) позволяют решить проблемы локальных минимумов, однако при увеличении уровня шума начинают терять эффективность. В диссертации предлагается принципиально новый подход решения задачи о локализации нейронных источников. Суть подхода заключается в сведении задачи локализации к задаче классификации. Подход основан на выделении из пространства возможных положений дипольных источников тех диполей, которые дают основной вклад в регистрируемый потенциал. Классификация активных и неактивных источников проводится по задаваемой величине порога ошибки по потенциалу. В качестве модели классификации данных рассматривается комитет го-

лосующих деревьев решений. Выделение зон активных источников при использовании деревьев решений соответствует построению некоторой кусочно-постоянной функции аппроксимации для приближения экспериментального потенциала модельным. Несколько деревьев решений в области мозга образуют пересекающееся зоны, которые "голосуют" в результативном выборе победителя-диполя. Построение такого ансамбля деревьев основано на формировании обучающего множества, составленного из вычисления модельного сигнала на поверхности в некоторых случайных позициях диполей. В отличие от ранее предложенных подходов решения обратной задачи ЭЭГ, разработанный подход позволяет за одну итерацию оценить вероятность появления источника в конкретной зоне, а точность локализации зависит от размерности построенного обучающего множества, которое формируется один раз (т.е. его не надо пересчитывать) .

Обучающее множество классификационной модели состоит из случайных возможных активных источников внутри мозга и ошибки приближения ими экспериментального сигнала. Каждый пример в обучающем множестве - это набор диполей, характеризуемый параметрами, включающими координаты и моменты источников. Полное анализируемое множество образов разбивается на независимые подмножества, соответствующие определенному моменту времени в ЭЭГ сигнале. Каждое такое подмножество состоящее из набора образов - диполей, расположенных некоторым способом внутри пространственной области, назовем обучающим множеством. В каждый момент времени имеется набор определенного числа диполей внутри области. Далее эти диполи делятся на два класса - С\,Сі. К классу С\ относятся те диполи, которые дают ошибку в аппроксимации экспериментальных данных меньшую некоторого заданного порога eth по потенциалу Sth [И]- К классу Сг относятся все остальные. По сформированному обучающему множеству строится ансамбль классификаторов, который основан на алгоритме Random Forest [21]. Random Forest один из наиболее многосторонних алгоритмов классификации данных известный в области Машинного Обучения.

В настоящее время можно выделить три основных метода построения ансамбля деревьев решений для задач классификации данных. Это Bagging [22], Random Forest [23] и Boosting [25]. Так же существует мно-

жество их модификаций, каждая из которых в какой-то степени улучшает созданные методы построения. Алгоритм построения дерева решений можно найти в работе [26], некоторые детали построения дерева решений будут обсуждены в этой главе. Одно из основных достоинств деревьев решений это обработка данных разного типа, а также данных, имеющих нетривиальные связи. Например, алгоритм CART (classification and regression trees) [24] основан на вероятностном структурировании данных. Очередной признак для построения дерева выбирается, основываясь на критерии минимальной энтропии. Такой принцип моделирования оказывается широко распространенным при построении моделей предсказания. При этом дерево решений дает грубую кусочно-постоянную аппроксимацию данных, устойчивую к шуму. В последнее время деревья решений находят свое применение не только в задачах прогнозирования, но также при обработке сигналов, распознавании изображения и текста, разработке системы безопасности, моделировании лекарственных препаратов и т.д.

Обобщая все существующие алгоритмы формирования ансамбля деревьев решений, процесс построения классификатора такого типа можно разделить на два этапа: это обучения каждого дерева в ансамбле и объединение всех деревьев в единый ансамбль. Выделяют две концепции обучения ансамбля. Первая, когда все члены ансамбля строятся последовательно, вторая, когда они строятся параллельно. К первому классу относится алгоритм Adaboost [25], который строит последовательность ансамблей деревьев решений, где обучающее множество каждого из них формируется на основе примеров, которые были неверно классифицированы предыдущем ансамблем. К этому классу также можно отнести алгоритмы Агс-х4 [27], ffloost [28], MiniBoost [29], MultiBoost [30], и т.д. К классу параллельно обучающихся деревьев относится Bagging [22], который формирует множества обучающих векторов для каждого дерева ансамбля путем селекции с замещением. Другими алгоритмами, относящимися к данному подходу, являются SEQUEL [31], Wagging [32], р-Bagging [33], GASEN [32], random subspaces [34], random forests [23], и randomized C4.5 [35] и т.д.

Основными параметрами при построении ансамбля деревьев решений являются:

исходная размерность задачи, которая диктует выбор соответству
ющего метода. В случае использования всего исходного множества
примеров для построения каждого дерева решений ошибка клас-
сифкации будет меньше, чем ошибка на подмножестве данных. С
другой стороны, разбиение на подмножества исходного простран
ства, позволит четко разбить задачу на независимые подзадачи,
минимизировать память для хранения обучающей выборки для по
строения каждого дерева [23,35-37].

критерий выбора следующего признака для разбиения при построении дерева решения. Этой проблеме посвящено достаточно много работ, так как она является важным параметром, влияющим на скорость работы алгоритма и его обобщающую способность. Можно выделить три принципа выбора признака для разбиения: вероятностный, случайный и смешанный [39]. Наиболее распространенными вероятностными методами [40] являются критерий Gini, который используется в С4.5 и CART, towing splitting rule для бинарных задач, Boolean splitting, impurity function и др [42], [43].

критерий остановки построения дерева решений. В качестве критерий обычно выбирается несколько вариантов: ограничить глубину дерева, оценить число возможных ответвлений на каждом этапе формирования узла дерева, алгоритмом "отсечения ветвей" сократить дерево после его полного построения, ограничить число признаков, участвующих в построении каждого узла дерева.

функция голосования деревьев в ансамбле. Среди существующих подходов можно выделить несколько: использовать весовые коэффициенты для деревьев ансамбля [44], основываясь на априорных оценках общей ошибки классификации [45], эволюционные алгоритмы отбора деревьев в итоговый ансамбль [47], случайный выбор деревьев [46].

число деревьев в ансамбле. Автоматическое определение оптимального числа деревьев в лесу проводится [48], путем введения двух обучающих множеств, что делает задачу непараметризованной. С помощью первого множества

отсекается часть деревьев, с помощью второго оценивается обобщающая способность классификатора. Например, в работе [49] объединяются несколько ансамблей, построенных разными алгоритмами (Boosting, Bagging, Random Forest и т.д.) в один решающий ансамбль путем введения ортогональных деревьев решений.

Специфика решаемой прикладной задачи определяет эффективность выбранного алгоритма построения ансамбля деревьев решений и возможных параметров построения каждого дерева. Решение задачи классификации в рамках проблемы локализации источников позволяет выделить в пространстве признаков (параметров дипольных источников) те подпространства, которые отвечают активным зонам с некоторой вероятностью. Пресечение всех подпространств положений источников и выбор сочетания областей, минимизирующих функцию ошибки, дает итоговое решение задачи локализации.

В главе приводится решение модельной обратной задачи ЭЭГ по выше предложенным алгоритмам локализации нейронных источников. Постановка модельной задачи состоит в выборе некоторых параметров диполей, для которых можно найти аналитические, точные значения потенциала на поверхности сферы. Эти значения называются квазиреальным экспериментом. Вычисленные значения потенциала зашумляются по параметру v^. Проводится анализ результатов работы алгоритма на входном сигнале квазиреального эксперимента. В результате определяются зависимости точности локализации от значения порога по потенциалу, шага сетки тренировочного множества ансамбля и числа признаков для построения каждого дерева. Показана сходимость метода - уменьшение ошибки локализации диполя при уменьшении порога по потенциалу. Определены основные параметрические зависимости предложенного алгоритма.

Во второй главе дана характеристика и определены требования к программному комплексу обработки сигнала ЭЭГ, представлена оценка вычислительной сложности алгоритма локализации источников электрической активности, описана разработка архитектуры и структуры программного комплекса, удовлетворяющего заявленным требованиям.

Программные системы локализации и визуализации источников

нейронной активности как правило состоят из трех основных компонент: первичная обработка экспериментальных данных (анализ амплитудно-частотных характерист, корреляционный анализ, энтропийный анализ); обработка снимков МРТ и определение анатомических особенностей; локализация нейронных исчтоников; постобработка (построение динамических карт активности) и визуализация результатов. К настоящему моменту существует несколько широко распространенных программных систем и библиотек, позволяющих осуществлять поиск источников электрической активности внутри мозга на основе анализа сигнала ЭЭГ: BrainStrom [64], EEGlab [67], The Brain Imaging Software Toolbox [68], FieldTrip [69], Cartool [70], BrainVISA/Anatomist [101], BrainSuite [71], FreeSurfer [72], MNE [73], SPM5 [74]. Программные инструменты BrainStrom, EEGLAB являются библиотекой функций и интерфейсов для программного пакета MATLAB. В программах есть возможность моделирования трехмерной реальной геометрии головы и мозга человека с помощью реконструкции снимков MRI, или использования стандартных трехслойных моделей головы. Поддерживаются форматы входных данных ЭЭГ для известных систем регистрации сигнала (NeiiroMag, NeuroScan, EEGAmplyphier) и форматы бинарного представления сигнала. В качестве алгоритмов локализации дипольных источников реализованы два метода: RAP-MUSIC и MinimumNormLocalization. Существует возможность моделирования сигнала на поверхности головы с помощью решения прямой задачи ЭЭГ.

В главе предлагается расширение функциональности существующей программных систем посредством разработки новых методов для статистического анализа результатов локализации, который имеет значительную роль при обработки данных нейрофизиологических исследований: динамическая локализация источников электрической активности по времени, получение усредненных положений источников активности для нескольких записей сигнала ЭЭГ, сокращение временных затрат при обработки сигнала с большой размерности (частотой дискретизации 1000 Гц и более для реальных моделей головы), стастистический анализ локализованных областей для выделения положений диполей, вызванных отношений сигнал-шум в исходных данных.

На основе обзора существующих программных систем локализации дипольных источников и учете специфики входных экспериментальных данных в главе формулируются требования к разрабатываемому программному комплексу. Первая группа требований включает в себя требования к производительности и масштабируемости разрабатываемого комплекса программ, учитывающие возможные размерности входных данных и их типы. Вторая группа требований определяет функциональные возможности комплекса, относящиеся к задаче локализации источников на основе анализа данных ЭЭГ. В нее входят требования: к формату входных данных; к протоколу эксперимента; к функциональным возможностям предварительной обработки сигнала, решения прямой задачи, задания и мониторинга параметров алгоритма обратной задачи; к статистическому анализу экспериментов, визуализации результатов; к созданию тестовых данных ЭЭГ. В главе обсуждаются существующие способы реализации программных систем для обработки данных ЭЭГ, и предлагаются новые решения в их разработке.

В главе описана структура разработанного программного комплекса для обработки данных ЭЭГ, удовлетворяющая сформулированным в работе требованиям.

Загрузка входных данных ЭЭГ, их предварительная обработка и представление во внутреннем формате осуществляется модулем Data Manager. Параметрами модуля является спецификация формата входных данных, согласно принятой системе регистрации сигнала ЭЭГ. В настоящее время разработанный комплекс поддерживает работу семи форматов входных данных. Основными модулями комплекса являются модули, реализующие решение прямой задачи (Forward Solver) и построение ансамбля деревьев решений с возможностью параллельного исполнения на многопроцессорных вычислительных (Inverse Solver). Для визуализации и интерпретации результатов работы алгоритмов реализован модуль мониторинга основных параметрических зависимостей и модуль визуализации активности на реальных структурах мозга (Graphics Library). Алгоритм построения усредненных карт активности на основе кластерного анализа реализован в модуле (Group Statistics).

Программная реализация предложенных алгоритмов выполнена на

языке C++- Параллельная реализация модуля Inverse Solver выполнена с использованием технологий параллельного программирования MPI и ОрепМР. Реализация интерпретации результатов локализации использует библиотеку трехмерных моделей мозга BrainVisa, представленную в виде классов на языке C++.

Многие исследования, направленные на достижение общего понимания функций работы мозга, основываются на картировании активности мозга на его анатомию [104]. Это требует объединения гигабайт данных, полученных из различных методик регистрации данных о мозге, таких как: магнитно-резонансной томографии (МРТ), электроэнцефалография (ЭЭГ, МЭГ) и др [104]. Группы ученых и инженеров по всему миру сталкиваются с общей проблемой: объемы данных растут быстрее, чем компьютеры могут обрабатывать их [108-114].

С появлением многоядерных процессоров на персональных компьютерах все алгоритмы построения пространственных карт активности мозга на основе анализа ЭЭГ, решения прямых и обратных задач стали адаптироваться к параллельным вычислениям. Основная задача разработчиков состоит в создании параллельных программных инструментов по локализации источников, позволяющих осуществлять обработку данных в режиме "онлайн" в том смысле, что обработка информации не должна превышать по времени эксперимент по регистрации данных. Все современные алгоритмы локализации источников обрабатывают данные ЭЭГ в соответствии с анатомическими особенностями конкретных испытуемых (subject-oriented), поэтому учет реконструированных поверхностей мозга и визуализация результатов локализации также занимают значительные временные затраты. Существуют библиотеки по обработке данных мозга, позволяющие осуществлять локализацию активных нейронных структур на многоядерных архитектурах. Разработан интерактивный язык и кросс-платформенная инструментальная среда (IDL)[104], позволяющая исследователю проводить картирование активности мозга на многоядерных архитектурах и вычислительных кластерах на основе технологий MPI. Исследователями данного проекта было достигнуто ускорение работы параллельной программы картирования в 3.8 раз на четырехпроцессорной Sun Ultra 80 с 450MHz процессорами UltraSPARC II и 4 Гб оперативной памяти, и в 2 раза сократить времен-

ные затраты на двухъядерной Intel Core 2 Duo Т7400, 2.16gHZ архитектуре.

Причиной развития параллельных алгоритмов в задачах локализации источников служат масштабы разрабатываемых моделей человеческого мозга. От общих многослойных моделей ученые переходят к моделированию максимально приближенным к конкретному испытуемому анатомических структур мозга и описанию более сложных процессов электрической активности, происходящих на микро-уровне. В связи с этим число элементов в рассматриваемой структуре возрастает в несколько раз, и требуется увеличение вычислительных ресурсов для микро-моделирования. Для таких целей была создана библиотека ParExPDE для параллельного выполнения обратной задачи ЭЭГ, основанной на дипольной модели, содержащий 109 элементов и позволяет проводить вычисления в реальном времени на 220 процессорах [114].

Во многих программных системах последовательной обработки сигнала ЭЭГ существуют ограничения на объем обрабатываемых данных, число рассматриваемых в модели компонент, точность приближения и др. Например, обработка сигнала ЭЭГ длительностью 15 минут с частотой дискретизации 128 Гц для 128 датчиков (около 150 Мб) для большинства программных систем является недопустимой [105]. Хранение в памяти нескольких файлов не осуществляется, поэтому необходимо для каждого выбранного сигнала сохранять результаты и последовательно сравнить его с остальными. Для увеличения максимального объема обрабатываемых данных и следовательно времени на их обработку в настоящее время существует ряд библиотек, позволяющих осуществлять параллельные вычисления при анализе данных, не удовлетворяющих заданным ограничениям. Библиотека HiPerSAT (High Performance Signal Analysis Toolkit) функций на языке C++ является дополнительной компонентой известной системы EEGLab, предназначенной для анализа больших объемов данных [107]. С ее использованием объем обрабатываемых данных ЭЭГ можно увеличить в 1000 раз.

Целью разработки параллельных алгоритмов и программных средств для анализа сигналов мозга является возможность анализа

различных данных о его структуре, особенностях, электрических и магнитных характеристик, состояния кровеносной системы', ЭКГ и т.д. одновременно для понимания функционирования мозга как единого сложного механизма. Создание параллельных алгоритмов для обработки данных ЭЭГ является актуальной проблемой в существующей области биомедицины.

Во второй главе диссертации проводится анализ последовательного' алгоритма решения задачи локализации. Целью данного анализа является выявление наиболее "узких" мест алгоритма и их дальнейшая параллельная реализация. Под "узким" местом будем понимать наиболее вычислительноемкие части алгоритма.

Анализируется зависимость времени решения прямой задачи ЭЭГ от параметров задачи: размерности обучающего множества и способа задания геометрии поверхности головы человека. На основе полученных результатов предлагается алгоритм параллельного решения прямой задачи при вычислениях сложной поверхности головы и входных данных большой размерности. Показано, что вычислительные затраты, необходимые для построения ансамбля деревьев решений, занимают около 90% от общего времени решения задачи. Голосование деревьев и определение результирующей зоны требуют около 7% общего времени решения. Исходя из полученных результатов, для реализации параллельной обработки предлагается разделение исходной задачи построения множества классификаторов на независимые подзадачи, реализующие построение одного классификатора. Для определения наиболее эффективного способа построения дерева решений в главе анализируется последовательный алгоритм обучения. Можно определить основные вычислительные затраты построения дерева решений следующими шагами алгоритма:

  1. Выборка подмножества данных для вычисления текущей точки разбиения (число переменных в выборе точки разбиения пропорционально квадратному корню общего числа переменных в базе данных).

  2. Сортировка значений каждого атрибута для последующего вычисления энтропии. Сортировка может быть выполнена независимо для каждого атрибута.

  1. Итеративные вычисления .изменения энтропии для нахождения, лучшего признака для разбиения. Поиск признака осуществляется за один проход отсортированного массива значений.

  2. Распределение обучающих примеров по потомкам исходного узла.

Экспериментально показано, что операции 1-4 занимают около 90% процессорного времени. На каждом их 4-х этапов осуществляется обработка исходного обучающего множества данных, и если его размер превышает доступный объем оперативной памяти вычислительной системы, то затраты на обмен информацией становятся очень значительными.

К настоящему моменту существует ряд работ [50-57], в которых предложено параллельное построение дерева решений для различных архитектур. В наиболее эффективных из существующих параллельных подходов построения дерева решений снижаются затраты на обмен информацией для вычисления точек разбиения в узлах дерева, оптимизируется работа с обучающим множеством (минимизировать число проходов по базе данных). Алгоритмы SLIQ [50] и SPRINT [51] представляют два основных алгоритма параллельного построения деревьев решений для данных большой размерности. SLIQ сортирует упорядоченные атрибуты только один раз и образует из входного обучающего множества списки атрибутов. Это влечет за собой значительные вычислительные затраты. Сортировка данных, находящихся на внешней памяти, представляет собой трудоемкую задачу, а составление дополнительных списков для атрибутов влечет за собой увеличение времени выполнения до 3-х раз. SPIRIT формирует хэш-таблицы, которые пропорциональны числу записей, ассоциированных с узлом дерева решений. Существуют другие методы, которые оптимизируют проходы по обучающему множеству, избегая полной сортировки и перезаписи данных. Например, RainForest [52] не требует сортировки значений атрибутов и формирования списков атрибутов. Объем основной памяти, требующийся для хранения структур данных алгоритма (так называемых AVC групп), пропорционален числу различных значений атрибутов. Но так как количество числовых атрибутов обычно очень велико, то в алгоритме RainForest предлагается подход, основанный на SPIES (Statistical Pruning of Intervals for Enhanced Scalability) [52] - разбиению на интервалы области значений каждого ат-

рибута, нахождения наименее вероятных интервалов, которые могут содержать точку для разбиения и их отбрасывание. В данном подходе не нужна сортировка исходного обучающего множества, объем хранимых в основной памяти структур данных и поток обмена данными минимальны. В алгоритме BOAT [53] за счет итеративного построения дерева, полный проход по обучающему множеству совершается только два раза для построения нескольких уровней дерева решений, что сильно сокращает вычислительные затраты.

В отличие от существующих методов параллельного обучения деревьев классификации в работе предлагается использовать метод оптимального распределения процессоров для вычисления узлов деревьев. Данная идея базируется на критерии оптимального разбиения исходной задачи на подзадачи. Критерий основан на отношении времени вычисления узла дерева к временной стоимости обмена информации между процессорами. С увеличением глубины дерева, объем собираемой статистики на каждом уровне увеличивается. На каком-то уровне временная стоимость обмена информацией между процессорами становится чрезмерно большой. Тогда в этом случае, группа процессоров, работающих в блоке над каждым узлом, разбивается на две подгруппы, которые выполняют построение поддеревьев параллельно.

В главе представлена схема параллельного построения комитета классификаторов, описана реализация и тестирование алгоритма на супер-ЭВМ "IBM 690 p-series Regatta". Экспериментально проведено сравнение ускорения времени работы алгоритма построения дерева при разбиении группы процессоров на подгруппы на каждом уровне дерева решений, при отсутствии разбиения на подгруппы, и с использованием предложенного оптимального критерия разбиения.

В конце главы проведен анализ соответствия предложенной структуры программного комплекса заявленным требованиям, представлены результаты сравнительного анализа функциональных возможностей с существующими программными средствами обработки сигнала ЭЭГ.

Третья глава посвящена описанию алгоритмов и программ для построения пространственно-усредненных карт активности нейронных дипольных источников, и анализу результатов применения разработан-

ного комплекса программ для обработки экспериментальных данных при исследовании нейрофизиологических проблем визуального восприятия.

Целью проведения экспериментов регистрации сигнала ЭЭГ как правило является выявление электрических характеристик мозга, связанных с реакцией мозга на определенную группы внешних по отношению к испытуемому событий, или с внутренним состоянием испытуемого, соответствующим его нормальной активности. Например, внешняя зрительная стимуляция широко применима при исследовании общих характеристик функциональных состояний мозговой деятельности, связанных с распознаванием образов, общением человека, реакции мозга на неспецифические внешние стимулы (вспышка света, цветовые гаммы). Правильная постановка эксперимента играет очень важную роль в получении достоверных данных о реакциях мозга. Человеческий мозг представляет собой сложную структуру, состоящую из нейронов со множественными связями, судить о которых можно только на уровне регистрируемых следствий мозговой активности. Получаемые данные в виде сигнала ЭЭГ содержат в себе множество артефактов, связанных с мышечной активностью, и отражают любые смены внутреннего состояния человека. Следствием использования неинвазивного метода получения данных, являются многократные повторения одних и тех же стадий эксперимента. Для нахождение общих закономерностей электрических характеристик требуется использование статистических методов обработки данных. В диссертация предлагается метод построения усредненных карт активности нейронных источников, основанный на специфике задачи локализации.

Входными данными алгоритма является множество временных последовательностей найденных параметров дипольных источников. Так как локализация источников в каждый момент времени проводится независимо, то временной процесс изменения положения диполя можно представить как случайный процесс. Нахождение усредненной области положения диполя-источника для некоторого временного промежутка (временного окна) позволяет определить область стационарности процесса и определить изменения положения, вызванные некоторым событием.

В главе формулируется алгоритм формирования пространственных карт активности для группы сигналов ЭЭГ в фиксированном вре-

менном окне. Алгоритм основан на предложенном методе кластерного анализа временных последовательностей параметров положений источников. В разработанном подходе кластеризации использована специфика задачи локализации источников:

  1. Положения центроидов и порядок их рассмотрения заданы априори множеством с весовыми коэффициентами.

  2. Центроид кластера не может менять свое положение, а только исключаться из рассматриваемого множества.

  3. Число кластеров неизвестно и итеративно определяется минимизацией критерия функционала качества.

  4. Все точки, имеющие степени принадлежности двум и более кластерам, которые отличаются па заданную пороговую величину, исключаются из рассмотрения.

Разработанные алгоритмы построения усредненных карт активности реализованы в компоненте Group Statistics.

На основе разработанного комплекса программ были обработаны данные нейрофизиологического эксперимента, проводимого в лаборатории нейрофизиологии когнитивных процессов Института Нейрофизиологии и Высшей Нервной Деятельности РАН. Эксперименты направлены на изучение неосознаваемых установок.

В результате влияния внешних стимулов, действующих на человека в конкретной ситуации, в мозге человека формируется внутренне состояние, которое в последующем влияет на восприятие других стимулов. Это состояние называется установкой. Формирования этой установки соответствует процессу обработки внешнего стимула мозгом. Механизмы выработки установок у человека основываются на переходе мозговой деятельности из одного состояния (до предъявления стимула, предстимуль-ное состояние) в другое состояние, являющееся последствием влияния стимула (постстимульное).

Обработка экспериментальных данных ЭЭГ позволяет изучать влияние фиксированной установки на последующую мозговую деятельности человека, выявлять параметры отдельных зон коры или

показателей их совместного взаимодействия при восприятии мозгом стимулов. Данный класс исследований очень важен для определения механизмов формирования зрительных реакций, и последующем влиянии обрабатываемых визуальных стимулов на поведение человека.

Целью обработки описанных экспериментальных данных было исследование предложенного метода локализации источников и построения усредненных карт активности для его применения в качестве способа оценки функционального состояния мозговой активности. Данная апробация разработанных алгоритмов и программ может служить подтверждением применимости метода оценки для различных нейрофизиологических экспериментов, связанных с исследованием реакций человека на внешние стимулы. Полученные результаты локализации являются дополнительной информации об активности мозговых структур во время обработки внешних стимулов.

В главе описаны результаты сравнения областей возникновения источников активности и их смещения для четырех стадий эксперимента по визуальному восприятию. Показано, что с помощью построения пространственно-временных карт активности дипольных источников, можно различить стадии эксперимента. Это свидетельствует о том, что данный алгоритм может быть использован для оценки функционального состояния мозговой деятельности.

Показано, что созданные программные средства анализа полученных результатов обработки экспериментальных данных на реальной геометрии мозга позволяют интерпретировать положения найденных источников на мозговых структурах.

Вычислительные эксперименты показывают, что разработанные пространственно-временные алгоритмы анализа экспериментальных данных ЭЭГ позволяют решить проблему соотношения сигнал - шум и отфильтровать случайные скачки дипольных источников, вызванные артефактными событиями.

В главе описано сравнение результатов обработки экспериментальных данных предложенным программным комплексом с существующими алгоритмами решения обратных задач ЭЭГ, такими как aRAP-MUSIC[94], ВК Beamformer[95], LORETA[97], МЕМ2 [100], Minimum Norm Localizaiton [98].

Сведение задачи локализации к задаче классификации

Основная идея предлагаемого метода локализации источников состоит в решении задачи минимизации методом классификации источников на основе специально сформированном обучающем множестве этих источников. Каждый образ в множестве - это множество диполей, заданное в сферической системе координат. Полное анализируемое множество состоит из набора образов-диполей, располагаемых некоторым способом внутри пространственной области головы.

Опишем процедуру формирования обучающего множества для одного момента времени (процедура аналогична для всех временных моментов) .

Внутренняя пространственная трехмерная область покрывается сеткой в сферической системе координат. Шаги сетки hr = 1/Nr , h$ = 1/N&, hp = 1/Nip, где Nn NtfjNp - число точек по каждому из направлений. В каждом узле сети располагается диполь. Строится трехмерная сетка в области моментов диполей в сферической системе координат, где вектор и характеризуется тремя параметрами : z/r—IML щ=соБ( д), z/ cos( ); шаги сетки Nv$,NV(p. Пример в обучающем множестве представляет собой множество точек в шестимерном пространстве, т.е это может быть диполь, расположенный в одном и том же месте, но обладающий разными моментами. Размерность обучающего множества равна NDB = Nr-NfNv- Nvv Nvtp Nvr.

Каждый диполь характеризуется шестью признаками и меткой класса, к которому он принадлежит: X? - {хЪ Х2, ..-, Xi, ..., ХМ\Ск}Р: (1.11) где р - номер примера (диполя), к - метка класса, к котрому относится образ, хр - г-й признак для диполя с номером р. Для каждого р-го диполя вычисляется ошибка по потенциалу RRE ( Residual Ralative Error) ер = YlYsW 4 j) - VK(0i, Рз)) - «;(р)(хр і?,-, )]2sin0,-fc /Vi і З

Задается уровень допустимой ошибки Sth, и все множество диполей разделяется на два класса: ниже порога, когда єр Sth (первый класс — Сі) и выше порога ( второй класс — Сг). Каждому диполю ставится в соответствие метка одного из классов. Таким образом формируется обучающее множество. Если число анализируемых временных срезов Nt, то полная база данных содержит Nt NDB данных.

Задача локализации источников формулируется как задача классификации с двумя непересекающимися классами. Целью классификации данных является нахождение параметров дипольных источников из обучающего множества, относящихся к классу Сі, т.е. имеющих допустимый уровень ошибки (1.9). Предложенный метод решения миними-зационный задачи является новым альтернативным подходом решения обратной задачи. В отличие от традиционных алгоритмов вычислительной математики он не зависит от начального условия, быстро сходится и имеет более устойчивое и точное решение.

В диссертации предлагается использовать модифицированный метод комитета случайных деревьев решений для решения задачи классификации активных источников.

Подход комбинирования простых классификаторов является эффективным методом решения многих задач классификации данных и распознавания образов [21]. К настоящему моменту существует множество исследований [22], доказывающих, что построение комитетов классификаторов позволяет значительно увеличить точность классификации данных и сократить временные затраты обучения классификатора [24].

В диссертации рассматривается подход построения случайных деревьев решений, основанный на базовом алгоритме Random Forest [26]. Принцип комбинирования случайных классификаторов, т.е. классификаторов, обученных на случайном подмножестве исходного обучающего множества, дает наиболее устойчивую к шуму классификационную модель, теоретически не имеющую склонность к переобучению [24]. Рассмотрим предложенный в диссертации алгоритм построения классификаторов для определения нейронных источников активности.

Пусть дано обучающее множество X = {хъ х2,..., ХІ, ..., хм\Ск}р:р = 1..N где ХІ - признаки, Си метка класс, которому принадлежит х N - размерность обучающего множества. По построению обучающего множества ставится задача бинарной классификации, т.е. Ck Є С = {Сі, С і\. Требуется построить классифицирующую функцию F : X — Y, где X - пространство векторов признаков, Y - пространство меток классов. Построим для входного обучающего множества Р классификаторов: 1. Сформируем Р случайных независимых векторов размерности N, { г} і с одинаковым распределением. 2. Поставим в соответствие каждом вектору fllk,l = 1..Р,к = 1..N подмножество исходного обучающего множества D{ = {(х, С)\} =1 -=г. 3. Разобьем каждое подмножество на два: D; = {(#, Ci)i U (%iCj)2/3N}. Первое будет использоваться для обучения классификатора, второе - для вычисления ошибки классификации. 4. Построим Р классификаторов со случайным параметром га, иполь-зуя первое подмножество примеров каждого Df {hfc(x, dk, m)}k=v 5. Выполним процедуру голосования классификаторов, определим итоговые области активности. 6. Вычислим значение ошибки классификации, используя второе подмножество примеров каждого Df. OOBerror = } (x,j)ex,— N гДе Nk - общее число примеров: {x,j) Є oob, N - число примеров обучающего множества, 1(-)- функция-индикатор.

Для оценки качества построенного классификатора используется oob (out-of-bag) множество. Данное множество состоит из 1/3 примеров при построении каждого дерева решений, и позволяет настроить классификатор для достижения оптимальной точности классификации.

В качестве простого классификатора в работе используется дерево решений. Дерево решений представляет кусочно-постоянную аппроксимацию исходных данных, что делает метод устойчивым при обработке сильно зашумленных данных, иерархическая структура дерева представляет признаки исходного множества в порядке "значимости", обучение дерева без отсечения ветвей уменьшает вычислительную сложность алгоритма. Рассмотрим алгоритм построения дерева решений более подробно.

Сходимость и определение основных параметрических зависимостей предложенного

Дерево представляет собой связный ориентированный граф, где каждый терминальный узел характеризуется именем атрибута и пороговым значением, а нетерминальный, т. е. лист, - меткой класса. Узлом дерева является узел проверки, а листом - узел решения. Условие в узле будем называть тестом. Множество В содержит примеры, относящиеся к разным классам. Цель построения дерева - разбить множество В на некоторые подмножества ВІ, которые будут состоять, в основном, из примеров, относящихся к одному классу. Нас интересует разбиение внутренней области на подобласти, в которых примеры относятся к первому классу, т.е. такому, в котором ошибка по потенциалу наименьшая.

В диссертации предлагается использовать случайный выбор т признаков при построении узла дерева решений. Использование такого подхода значительно сокращает сложность алгоритма при обработке входных множеств, имеющих большую размерность пространства признаков. Среди выбранных случайным образом признаков выбирается наилучший признак, разбивающий множество в узле дерева так, чтобы получаемые подмножества состояли, в основном, из объектов, принадлежащих к одному классу. Количество образов-примесей в каждом из этих множеств будет наименьшим. Мы используем теоретико-информационный критерий для выбора наиболее значимого атрибута [46]. Для различных классов и различных примеров каждый признак хг упорядочивается в порядке возрастания значений. Вычисляется новое значение xf. х = fa + 24+1)/2.

Эти значения х являются границами разбиения на подмножества ВІ по признаку а;г,г = 1,...,М—1. Пусть Nk,i есть число примеров из ВІ, относящихся к одному классу Си- Тогда вероятность того, что случайно выбранный пример из множества ВІ будет принадлежать к классу С&, определим как Pf.j = Nk,i/Ni, где N{ есть полное число образов в множестве ВІ. Информация, содержащаяся в выборе x k, равна lnfk,i = — og2Pk,i, а средняя информация, приходящаяся на такой выбор, есть энтропия п N Еп(я:4, ВО = - J {Pk,i log2 Рк,і} - . (1.12) fc=i Обозначим через En(J3) энтропию полного множества В при анализе по признаку Xi. Тогда критерием выбора признака будет максимальное значение G(X) = Еп{В) - Еп(хі: ВІ) по всем признакам. Итак, множества В\, В , ...,Вп получены при разбие ний исходного множества В по признаку жг- Выбирается атрибут, дающий максимальное значение по критерию (1.12) (см. [38]).

Пусть выбран признак хг для всех примеров. Теперь разбиваем множество В на два подмножества путем вычисления порога по выбранному признаку. Для этого вычисляется пороговое значение признака хци в наборе х { из условия максимизации энтропии (1.12). Исходное множество примеров разбивается на два подмножества В%. и BR. Множество В% соответствует критерию Х{ . Xijhi а множество BR определяется неравенством

Далее рассматриваем множество В%.. Делаем проверку: если в В . находятся примеры одного класса, то получено решение и алгоритм останавливается. Если в В%. присутствуют примеры других классов, то продолжаем разбиение каждого из полученных множеств В%. и BR. Далее анализируем В%, в котором выбираем наиболее информативный признак для следующего разбиения, используя указанную выше процедуру. Признак Х{ исключается из соревнования. Пусть выбран признак Xj для следующего разбиения. Из условия максимизации энтропии вычисляется порог Xjjh по признаку Xj и множество В% оказывается разбитым на BLL и BLR по признаку Xj. Если полного разделения образов не получилось, то множество BR разбивается на два множества

BRL и QRR Таким образом, используя два признака, мы разбили исходное множество на четыре подмножества BLL, BLR, BRL и BRR. Далее процедура повторяется. Когда проведено разделение множества примеров по всем признакам, алгоритм останавливается.

Для формирования комитета определим процедуру голосования деревьев. В работе предлагается использовать эвристику задачи локализации, которая состоит в следующем. Будем использовать

понятие пути. Путем в графе дерева называют конечную последовательность вершин, в которой каждая вершина (кроме последней) соединена со следующей в последовательности вершиной ребром. Рассмотрим в каждом дереве все пути из корневой вершины Vroot в листовую вершину с меткой класса С\. Обозначим через

V = {vi,V2, ...,VN} множество терминальных узлов дерева и через В = {Ьгі,Ьг2,...,Ьгв} - множество ветвей дерева, принадлежащих каждому из таких путей. Каждому из терминальных узлов множества

V соответствует (по алгоритму построения) название признака из исходного множества признаков и пороговое значение этого признака. Каждой ветви в дереве приписана метка из множества { , } Каждому пути і в дереве t, соединяющему корневую вершину и лист с классом Си поставим в соответствие множество вида R-egj = {Xi,Xth,Tt} где ХІ - признак, который соответствует вершине V{ из множества V, хщ - пороговое значение, которое соответствует вершине Vi из множества К, ті - отношение { , }, определенное ветвью Ъг{ из множества В. Множество будет выделять определенную область в исходном пространстве признаков. В дальнейшем будем говорить, что дерево t выделяет области Regt (1-3). Рассмотрим множество областей, выделенных всеми деревьями комитета: Яедац = {Regu, Regu,..., Reg2l, Reg22, -, RegPl, Regp2,...}, где P - число деревьев . Построим отображение множества Regaii на сферическую систему координат. Для этого выделим два подмножества: первое из них состоит из признаков, отвечающих за пространственное положение диполей Rpos — {(гр,т9р, / )}p=i, второе - из моментов диполей v$,v%)}p=i- Отобразим множество положений источников Rpos в сферической системе, оно будет соответствовать множеству областей. Тогда пересечение этих областей Zp — {f)i=i(Rp0S), nt) будет соответствовать областям класса Ci, a nt - числу деревьев, участвующих в голосовании (пересечении). Для того чтобы выделить наиболее значимую область, определим как решающее пересечение такое пересечение, в котором участвовало наибольшее число деревьев. Доопределим моменты активных зон элементами из множества Rm0m Таким образом, множество активных областей соответствует числу дипольных источников при построении исходного обучающего множества. Данный способ локализации позволяет исключить из рассмотрение области, возникающие из-за шума в исходных данных. Предложенная классификационная модель имеет одни параметр, который значительно влияет на качество классификации, это порог по потенциалу, задаваемый при построении обучающего множества. Число деревьев в ансамбле и число случайных признаков при построении дерева решений, могут быть получены на основе минимизации ошибки oob или заданы исходя из теоретических априорных оценок. Данный метод является новым подходом для решения обратной задачи ЭЭГ, и в отличие от традиционных подходов, как показано далее, имеет быструю сходимость и хорошую точность.

Анализ производительности последовательного алгорит ма решения обратной задачи ЭЭГ

Решение обратной задачи ЭЭГ состоит в построении модели, которой аппроксимируется абстрактная группа активных нейронов, находящихся в непосредственной близости друг к другу. Построение модели сводится к решению оптимизационной задачи нахождения параметров диполей-источников. Данная задача имеет неединственное решение и требует высокой точности в локализации. Входной обрабатываемый сигнал содержит много шума и артефактных колебаний, которые создают неустойчивость в оптимизационной задаче. Использование традиционных методов оптимизации приводит к итеративным процессам, которые долго сходятся и сильно зависят от начального условия. При обработке данных экспериментов приходится многократно решать обратную задачу ЭЭГ.

В основе разработанного в данной работе метода решения обратной задачи ЭЭГ лежит ансамбль деревьев решений. Алгоритм построения ансамбля был описан в предыдущей главе. Для рассмотрении возможностей ускорения выполнения обработки сигнала, т.е. параллельной реализации предложенного алгоритма, был проведен анализ его последовательного выполнения. В качестве вычислительной платформы использовался ПК с двуядерным процессором частотой 2.16GHz и памятью RAM 2Gb.

Для оценки временных затрат последовательного решения задачи локализации было определено четыре модели вычислительного эксперимента. При этом входной сигнал размерности 1000 временных отсчетов на 20 каналах фиксировался. Было исследовано распределение процессорного времени для трех этапов решения задачи: формирования обучающего множества, построения ансамбля классификаторов, голосования членов ансамбля за результирующую область. Параметры вычислительных моделей и результаты анализа представлены в Таблице 2.3. Показано, что большую часть от общего времени решения занимает построение ансамбля классификаторов и она увеличивается с уточнением шага при задании параметров прямой задачи. Таким образом, ускорение решения задачи локализации будет достигаться при ускорении функции построе ния ансамбля классификаторов.

При анализе последовательного алгоритма построения ансамбля деревьев решений для модельных данных было построено 100 деревьев решений и проведено голосование между 350 возможными областями активности. Было выявлено, что 7% от общего числа потраченного времени, уходит на процедуру голосования деревьев. На основе этого анализа процедура голосования была исключена из параллельной реализации, и рассматривались алгоритмы построения множества деревьев решений.

Каждое из деревьев решений в ансамбле строится на подмножестве исходного обучающего множества и не зависит от других членов ансамбля. Для получения распределения временных затрат по этапам построения одного дерева решений было построено 100 деревьев решений для обучающего множества, состоящего их 127 атрибутов и 80,000 примеров. В результате было получено, что основные вычислительные затраты уходят на следующие шаги алгоритма: 1. Выборка подмножества данных для вычисления текущей точки разбиения (число переменных в выборе точки разбиения пропорционально квадратному корню общего числа переменных в базе данных). 2. Сортировка значений каждого атрибута для последующего вычисления энтропии. Сортировка может быть выполнена независимо для каждого атрибута. 3. Итеративные вычисления изменения энтропии для нахождения лучшего признака для разбиения. Поиск признака осуществляется за один проход отсортированного массива значений. 4. Распределение обучающих примеров по потомкам исходного узла.

На рис.2.3 показано распределение процессорного времени работы алгоритма построения дерева решений по этапам выполнения алгоритма обучения дерева решений. Показано, что операции 1-4 занимают около 90% процессорного времени. На каждом их 4-х этапов осуществляется обработка исходного обучающего множества данных, и если его размер превышает доступный объем оперативной памяти вычислительной си стемы, то затраты на обмен информацией могут быть очень значительными. В наиболее эффективных из существующих параллельных подходов построения дерева решений снижаются затраты на обмен информацией для вычисления точек разбиения в узлах дерева, оптимизируется работа с обучающим множеством (минимизировать число проходов по базе данных). Реализация таких подходов основана на специальных языковых структурах (списков или хэш-таблиц), которые ассоциированы с узлами деревьев решений, разработке различных оптимизационных методов прохода по обучающему множеству, оценках величины дерева и Др.

Для исследования зависимости времени построения дерева решений от размерности входных данных было построено 50 деревьев решений для обучающих множеств, содержащих от 10 до 500,000 примеров.

Зависимость времени выполнения последовательного алгоритма построения дерева решений от размера входных данных, полученная в проведенном эксперименте, представлена на рис.2.5. На рисунке видно, что время выполнения увеличивается линейно начиная с 150,000 примеров. Следовательно, при уточнении решения прямой задачи (увеличения размерности тренировочногно множества) временные затраты на их обработку также будут увеличиваться с полученной зависимостью.

Задача определения пространственных нейронных структур мозга, участвующих в обработке зрительной информации

Разработанный комплекс программ по обработке данных ЭЭГ был апробирован для исследования задач нейрофизиологии. В качестве входного сигнала использовались данные нейрофизиологического эксперимента. Был проведен автоматизированный анализ электроэнцефалограммы, построены усредненные карты активности для различных временных масштабов данного сигнала ЭЭГ. Результаты применения алгоритмов представлены в параграфе.

Проблема изучения нейрофизиологических механизмов восприятия является одной из основных в нейрофизиологии. Человек воспринимает мир при помощи специализированных сенсорных систем - анализаторов. Восприятие - это процесс и результат формирования субъективного образа предмета или явления, действующего на анализатор. Интенсивное изучение нейрофизиологических механизмов восприятия стало возможным в связи с возникновением методов регистрации микро-и макропотенциалов мозга, т.е. активности отдельных нейронов и суммарной биоэлектрической активности мозга. При этом основной вопрос заключается в том, каким образом происходит прием и преобразование сенсорных стимулов и в каком виде отражается воспринятый и преобразованный стимул в центральной нервной системе человека.

В результате влияния внешних стимулов, действующих на человека в конкретной ситуации, в мозге человека формируется внутренне состояние, которое в последующем влияет на восприятие других стимулов. В психофизиологии такое явление имеет много названий, одно из них - "установка" [59]. После формирования такой установки при изменении внешнего стимула у испытуемого происходит несоответствие между внешним стимулом и внутренним образом (установкой), в результате имеют место ошибочные реакции. Обработка экспериментальных данных ЭЭГ позволяет изучать влияние фиксированной установки на последующую мозговую деятельности человека.

Класс экспериментов, на которых был апробирован программный комплекс, направлен на исследования неосознаваемых установок.

Существует несколько методик экспериментов, связанных с выработкой установки. Одной из основных методик является предъявление человеку, участвующему в эксперименте (в дальнейшем именуемого как испытуемый), зрительных стимулов. В качестве важнейших внешних стимулов, предъявляемых во время эксперимента, нейрофизиологами были выбраны человеческие лица. Выражение человеческого лица имеет важное значение в межличностных отношениях. Оно служит одним из основных источников зрительной информации об эмоциональном состоянии и намерениях другого человека, содержит социальную и биологическую информацию, необходимую для организации адекватного поведения в конкретной ситуации [61], [62]. С помощью анализа вызванных потенциалов мозга удалось показать, что восприятие эмоциональной экспрессии лица осуществляется при участии иерархически организованной разветвленной сети мозговых структур. Отдельные узлы этой структурно-функциональной системы активируются в определенной временной последовательности [61]-[63],[87] что, по всей вероятности, отражает их последовательное участие в осуществлении отдельных этапов обработки зрительной информации. Однако, в настоящее время нет достаточных исследований, по изучению структур мозга, активизирующихся при когнитивной деятельности, которая возникает при визуальном восприятии лиц и их корреляции с другими отделами мозга. Разработанные программы определения активности позволяют получить новую информацию при изучении нейрофизиологических гипотез.

В работе предлагается использовать разработанный комплекс программ для анализа различных стадий эксперимента зрительного восприятия человеком стимулов и последующего их влияния на мозговую деятельность.

В рамках данного исследования была обработана электрическая активность испытуемых, принимавших участие в эксперименте, проводимом лабораторией Когнитивных Процессов ИВНД и НФ РАН [63]. Описание и протокол эксперимента вместе с обработанными данными были предоставлены лабораторией нейрофизиологии когнитивных процессов [58].

В экспериментах на здоровых взрослых людях исследовали влияние прошлого опыта испытуемых на функцию опознания эмоционального выражения лица. Сформулируем ряд определений для описания протокола эксперимента. Стадия формирования внутреннего состояния мозга называется стадией формирования установки, стадия действия установки на обработку мозгом внешних стимулов, называется стадией актуализации установки.

Протокол эксперимента. Иследовались 35 человек (20 женщин и 15 мужчин) в возрасте 25.1 ± 1.3 года. Испытуемые были студентами, аспирантами и научными сотрудниками. Ранее они не участвовали в экспериментах с установкой. Предварительно испытуемых знакомили в общих чертах с характером исследования. В центре монитора, находившегося на расстоянии 70 см от глаз испытуемого, на темно-сером фоне одновременно предъявлялись два кадра с изображением лица [62]. На стадии формирования установки слева предъявлялось сердитое выражение лица, справа- то же лицо с нейтральным, "спокойным"выражением. Время экспозиции -350 мс. После паузы 1 с в центре того же экрана появлялся пробный стимул - зеленое световое пятно диаметром 3 мм, с длительностью свечения 2 с. На стадии тестирования установки, которая начинается непосредственно после стадии формирования, одновременно предъявляли два кадра с нейтральным выражением того же лица с теми же параметрами стимуляции, что и на предыдущей стадии опыта.

Похожие диссертации на Методы и программные средства для обработки данных электроэнцефалографии