Содержание к диссертации
Введение
ГЛАВА 1 Анализ задачи диагностики и постановка задачи исследования 11
1.1 Задачи диагностики 11
1.2 Анализ структуры автоматизированной диагностической системы 12
1.3 Выбор модели описания кластеров 16
1.4 Анализ методов распознавания изображений и построение решающих правил 22
1.5 Постановка задачи исследования и выбор критерия качества 27
1.6 Перспективные направления визуализации и постановка задачи исследования 32
Выводы по материалам первой главы 38
ГЛАВА 2 Анализ методов компьютерной обработки изображений в диагностических системах 40
2.1 Методы диагностики, использующие компьютерную обработку сигналов изображений 40
2.2 Биопотенциалы мозга: механизмы возникновения и основные характеристики 41
2.3 Электроэнцефалография как метод исследования электрической активности головного мозга 45
2.4 Традиционные методы анализа ЭЭГ 54
2.5 Компьютерный анализ ЭЭГ. Основные направления и тенденции 55
2.6 Основные методы визуализация в электроэнцефалографии 58
Выводы по материалам второй главы 69
ГЛАВА 3 Визуальный анализ структуры эксперимен тальных данных и его использование для построения решающих правил классификации 70
3.1 Методика прямого формирования признаков из биомедицинских данных ЭЭГ обследования 70
3.2 Отбор информативных признаков и анализ особенностей структуры объектов 71
3.3 Снижение размерности признакового пространства биомедицинских данных методом главных компонент 82
3.4 Формирование областей допустимых вероятностей на основе визуального представления данных 86
3.5 Оптимизация разделяющих поверхностей и формирование решающего правила в задачах классификации биомедицинских данных 94
Выводы по материалам третьей главы 99
ГЛАВА 4 Экспериментальное исследование алгоритмов работы предложенных методов 100
4.1 Объект исследования 100
4.2 Выбор оптимальной модели ЭЭГ-сигнала 101
4.3 Экспериментальная проверка метода формирования диаграмм рассеяния объектов в корреляционном поле главных компонент 108
4.4 Экспериментальная проверка метода формирования областей допустимых вероятностей использующего визуализацию данных 111
4.5 Экспериментальная проверка метода собственных областей классов с разделяющими поверхностями в виде гиперсфер 118
Выводы по материалам четвертой главы 122
Заключение 123
Литература 125
Приложения 136
- Анализ методов распознавания изображений и построение решающих правил
- Традиционные методы анализа ЭЭГ
- Отбор информативных признаков и анализ особенностей структуры объектов
- Выбор оптимальной модели ЭЭГ-сигнала
Введение к работе
Диссертационная работа является результатом исследования и разработки методов визуализации при решении задач классификации в медицинских диагностических системах.
Актуальность проблемы
Несмотря на высокий уровень развития современной компьютерной техники, задача распознавания и классификации объектов оказывается весьма проблематичной. Во многом это обусловлено сложностью формализации визуализованных объектов и описания их по количественной шкале. При этом главной задачей является распознавание состояния исследуемого объекта и отнесение его к одному из имеющихся диагностических классов. Такие известные специалисты в теории распознавания образов — Ю. И. Журавлев, В. И. Васильев, Н. В. Киселев и другие сходятся во мнении, что создание абстрактной распознающей системы без приложения к какой-либо реальной задаче зачастую оказывается бесполезной тратой сил. Более плодотворным в указанном направлении является иной подход - решение конкретной практической задачи и последующее обобщение результатов на группу задач, в какой-то мере близких к решенной. В соответствии с этим подходом в диссертации была решена задача построения системы автоматизированного анализа ЭЭГ. Однако результаты могут быть перенесены так же на техническую диагностику и автоматизированную классификацию. Целью исследований является поиск новых закономерностей изучаемых феноменов и их использование в практических задачах диагностических измерений. Одной из областей применения автоматизированных диагностических систем является медицина. Такие методы, как, электроэнцефалография (ЭЭГ), электрокардиография (ЭКГ), электромиография (ЭМГ), реография (РГ) и др. являются не травматичными методами медицинской диагностики, не наносят вреда организму и не вызывают неприятных ощущений у пациента.
Диагностика производится путем измерения множества косвенных показателей функционирования организма, обработка которых требует применения вычислительной техники. В исходных данных, как правило, содержатся потенциально важные показатели, которые выражены неявно и в исходном сигнале практически неразличимы.
Используя вычислительную технику и специально разработанные алгоритмы вычислений, можно привести исходные данные к такому виду, в котором диагностически важные показатели будут визуализо ванны в явной хорошо различимой для врача-диагноста форме. Это в значительной мере повышает точность диагностики, а также значительно снижает требования к квалификации медицинского персонала и облегчает его работу. Публикаций, посвященных решению задач классификации образов, в которых задейству-ется образное мышление человека не так много. При решении таких задач необходимо учитывать факторы, связанные с инженерной психологией. В работах таких специалистов в области машинной графики, как В. В. Александров, А. Н. Шеповальников, В. С. Шнейдеров, указывается, что при решении задач, в которых задействуется образное мышление человека, наиболее эффективны модели в одно-, двух- и трехмерном пространстве, не смотря на то, что при применении методов графического кодирования информации существует возможность отображения многомерной информации в пространстве низкой размерности. В тех же работах указывается, что производительность работы человека-оператора резко снижается, при одновременном отображении более 5-7 информативных компонент. Это принимается во внимание, при выборе двумерного признакового пространства для визуальной оценки структуры объектов и построения правил классификации. Следует особо выделить метод исследования биоэлектрической активности головного мозга — электроэнцефалографию (ЭЭГ). Большое количество работ в направлении создания систем компьютерного анализа ЭЭГ, как раз и обусловлено актуальностью проблемы исследования головного мозга.
Цель работы
Разработать методы, позволяющее с помощью визуализации использовать способность человека воспринимать неформализованные данные, а рутинную часть работы с формализованными данными возложить на ЭВМ.
Поставленные задачи
Исследовать действующие системы компьютерной диагностики и определить направления улучшения качества их работы.
Произвести анализ диагностических систем и осуществить выбор структуры системы, обеспечивающей реализацию методов диагностики, использующих визуализацию биомедицинских данных.
Разработать методику выявления признаков, достоверно отличающихся для различных диагностических классов, с целью упрощения задачи классификации исследуемых объектов.
Для реализации двумерного и трехмерного (стереопары) визуального отображения данных, разработать метод эффективного снижения размерности признакового пространства до р<,3, без ущерба для качества классификации.
5.Разработать методы построения решающих правил классификации с учетом особенностей структуры данных, выявленных с помощью визуального разведочного анализа по диаграммам рассеяния.
6. Разработать программное обеспечение для экспериментальной проверки эффективности предлагаемых методов и произвести эксперименты по визуализации и классификации ЭЭГ- сигналов с помощью разработанных методов.
Методы исследования
Базируются на использовании методов теории вероятности и математической статистики, численных методах, статистической теории распознавания образов.
Объект исследования
Объектом исследования являются биомедицинские электроэнцефалографические (ЭЭГ) сигналы, используемые в функциональной диагностике состояния биоэлектрической активности головного мозга человека.
Научная новизна работы
Предложены новые методы формирования решающих правил классификации с использованием визуального анализа структуры экспериментальных данных, дающие возможность задействования в автоматизированной системе способностей человека воспринимать неформализованные данные.
Для визуального разведочного анализа данных разработан метод построения двумерных и трехмерных (стереопары) диаграмм рассеяния, путем снижения размерности признакового пространства с использованием главных компонент.
Разработан метод классификации в двумерном признаковом пространстве с помощью визуального формирования областей допустимых вероятностей.
По результатам визуального разведочного анализа разработан метод построения правил классификации в многомерном признаковом пространстве с разделяющими поверхностями в виде оптимизированных гиперсфер.
5.Разработаны математические модели сигналов ЭЭГ для формирования кластеризованных обучающих последовательностей.
Достоверность результатов
Исследования подтверждаются результатами классификации сигналов электроэнцефалограмм, а также их моделей, актами внедрения результатов в производство и учебный процесс, публикациями, апробацией на научных семинарах и конференциях.
8 Основные положения, выносимые на защиту
Концепция построения автоматизированных диагностических систем с задействованием, с помощью визуализации, человеческих органов восприятия и способностей к образному мышлению.
Методы поиска информативно значимых компонент признакового пространства.
3.Метод построения двумерных и трехмерных (стереопары) диаграмм рассеяния, путем снижения размерности признакового пространства с использованием главных компонент, для визуального разведочного анализа.
4. Метод классификации с использованием визуального формирования областей допустимых вероятностей.
5.Метод классификации на основе контуров равновероятных плотностей.
6.Результаты экспериментальных исследований предложенных методов визуализации и классификации.
Практическая ценность
Практическая ценность данной диссертационной работы заключается в разработанных методах визуализации и классификации ЭЭГ- сигналов, которые можно применять для функциональной диагностики состояния биоэлектрической активности головного мозга человека. Методы могут быть использованы для классификации практически любых объектов, описание которых произведено вектором признаков, измеренных по количественной шкале.
Внедрение результатов работы
1. Результаты, полученные в работе, были использованы при разработке системы ультразвукового исследования головного мозга (СУЗИМ) по договору № 313147 в 21 отделе НКБ «МИУС» ТРТУ.
2.Научные и практические результаты работы были использованы в ОКБ «РИТМ» ТРТУ при разработке медицинского прибора УЗИ с топографическим картированием - «Эхотомоскоп».
9 3.Результаты, полученные в работе, были использованы в хоздоговорных ра- ботах№11334; 11335; 11337; 11338. 4. Результаты исследований используются в учебном процессе на кафедре
РПрУ и ТВ Таганрогского радиотехнического университета.
Апробация работы
Материалы диссертации обсуждались на следующих конференциях: сорок девятой научной конференции, Таганрог, ТРТУ, 2004; десятой международной научно-технической конференции студентов и аспирантов, МЭИ, 2004; девятой Всероссийской научно-технической конференции студентов, молодых ученых и специалистов «Новые информационные технологии в научных исследованиях и в образовании», РГРА, 2004; международной научной конференции «Информационный подход в естественных, гуманитарных и технических науках», Таганрог, ТРТУ, 2004; международной научной конференции «Оптимальные методы решения научных и практических задач», Таганрог, ТРТУ, 2005; международной научной конференции «Цифровые методы и технологии», Таганрог, ТРТУ, 2005.
Публикации
По теме диссертации опубликовано 8 печатных работ.
Структура и объем работы
Диссертация состоит из введения, четырех глав, заключения, списка литературы и приложений. Материалы работы изложены на 144 страницах и содержат 5 таблиц, 46 рисунков, 122 библиографических источника и 9 страниц приложений.
10 Во введении обоснована актуальность проблемы, сформулированы цель и основные задачи, решаемые в диссертационной работе, основные научные положения, выносимые на защиту. Приведено краткое содержание по главам и сведения о внедрении результатов работы.
В первой главе рассмотрены общая постановка задачи диагностики, ее характерные особенности и структура решения.
Во второй главе произведен анализ основных направлений исследований в нейрофизиологии, с использованием возможностей ЭВМ по визуальному отображению биомедицинских данных. Проанализированы методы функциональной диагностики, использующие ЭВМ. Произведен анализ электроэнцефалографии и существующих методов графического кодирования информации. Произведен анализ основных аспектов применения ЭВМ в нейрофизиологии.
В третьей главе производится разработка методов анализа признаков и их ранжировки по классификационной значимости. Разработан метод визуализации и эффективного снижения размерности признакового пространства, с использованием главных компонент. Разработаны два метода классификации с учетом особенностей структуры данных.
В четвертой главе проводится экспериментальное исследование разработанных методов визуализации и классификации с помощью программного пакета MATLAB. Произведена проверка методов на предмет целесообразности их применения, а также произведено сравнение разработанных методов с методом К- ближайших соседей.
В заключении приводятся основные научные и практические результаты работы, а также выводы по результатам выполненных исследований.
Анализ методов распознавания изображений и построение решающих правил
Основой теории распознавания образов является систематизация теоретических и экспериментальных исследований и получение некоторой агрегированной оценки объекта исследований [33]. Многие методы основаны на моделях поведения человека с его способностью к обучению.
В процессе распознавания система, на основе апостериорной информации, соотносит каждый поступивший на вход системы объект с априорным описанием классов и принимает решение о принадлежности этого объекта к одному из кластеров. Правило, которое каждому объекту ставит в соответствие определенное наименование класса, называют решающим правилом [25]. Трудность создания полностью автоматической диагностической системы состоит в отсутствии достаточно полных знаний об исследуемом объекте.
Уровень априорной информации в задачах диагностики может изменяться в широких пределах. Поэтому в зависимости от уровня априорной неопределенности используют различные подходы, такие как детерминистский, эвристический, вероятностно - статистический.
Решение на ЭВМ возможно только для полностью детерминированной задачи, а для этого причины и механизмы формирования явления должны быть известны с высокой точностью и полностью формализованы[33]. В случае если явных причинно-следственных связей не наблюдается, при решении необходимо использовать вероятностные методы.
Особенностью применения вероятностных методов является то, что для их эффективного использования необходимо точное знание вероятностных характеристик исследуемого процесса, которое может быть получено только при наличии большого количества обучающих выборок [106]. Невысокий уровень априорных данных или полное их отсутствие превращает задачу диагностики в задачу на принятие решения в условиях неопределенности.
К таким задачам не применимы хорошо разработанные классические методы распознавания. Детерминированные методы неприменимы из-за низкого уровня априорной информации. Вероятностные методы неприменимы из-за отсутствия достаточного статистического обучающего материала.
Выходом из положения может стать использование эвристических методов, или одновременное использование детерминированных и вероятностных методов, хотя при этом теряются их оптимальные свойства[93].
Одной из известных на сегодняшний день групп алгоритмов, являются алгоритмы, основанные на принципе разделяющих поверхностей [24,25], отличающиеся друг от друга только видом разделяющих поверхностей (линейные, кусочно-линейные, полиномиальные). Существует алгоритм типа потенциальных функций, в которых функция принадлежности объекта к кластеру считается потенциальным полем, создаваемым эталонными объектами-зарядами ].
Так называемые тестовые алгоритмы [41], «Кора», алгоритмы вычисления оценок (АВО) [94] основаны на принципе прецендентности, что означает принятие решений по аналогии, т.е. в аналогичных ситуациях следует действовать аналогично.
Большую группу составляют алгоритмы, использующие статистический подход к распознаванию, который базируется на вероятностных моделях и байесовской теории принятия решений [87, 103, 105, 106]. При решении практических задач, многие показывают свою полную несостоятельность, несмотря на хорошее теоретическое обоснование.
Это связано со значительными ограничениями и допущениями при разработке методов классификации, кажущимися исследователям, на первый взгляд, непринципиальными, но в итоге лишают разработанный метод классификации всякой практической ценности. Так, например, априорно принимается гипотеза о принадлежности функции плотности вероятности какому-либо параметрическому семейству [106]. Некоторые оптимальные теоретические методы предполагают еще и статистическую независимость выбранной системы признаков [48], получение же такой системы на основании ограниченного объема экспериментальных данных практически имеет смысл только в случае гауссовского распределения.
По этой причине, «на сегодняшний день параметрические методы распознавания по существу являются методами распознавания нормально распределенных совокупностей» [105].
Несмотря на то, что нормальное распределение в природе встречается наиболее часто, не стоит подгонять любое недостаточно исследованное явление стохастической природы под нормальный закон распределения, желая упростить вычисления и интерпретацию полученных результатов. Такие методы имеют только теоретическую ценность из-за сильно ограниченной области практического применения.
Менее обусловленными, относительно области их применения, являются методы непараметрической классификации. При этом знание функции распределения для классов К„, п=\, 2,..., N дает возможность построения решающего диагностического правила (математической модели). Непараметрические методы имеют целью получение оценки потности распределения по структуре исходных данных, в виде конечной выборки.
Наиболее важным является поиск минимальных допущений, которые позволили бы построить как минимум одну оценку плотности, сходящуюся к истинной плотности по вероятности [106]. При этом вероятность ошибки классификации хотя и важна, но как бы отодвигается на второй план.
На определенных математических моделях эти алгоритмы являются оптимальными, хотя часто эти модели оказываются неприменимыми на практике. Все эти алгоритмы можно причислить к классу эвристических методов [93]. Неизбежным следствием ограниченности объема обучающих выборок является применение эвристических методов [94].
Для решения задачи анализа структуры данных в многомерном признаковом пространстве наиболее широко используется визуализация данных [3, 4, 36].
Класс моделей и методов, позволяющих анализировать многомерные данные с помощью их отображения в пространство низкой размерности, образует самостоятельное направление прикладной статистики называемый разведочным анализом данных (РАД).
В зарубежной литературе это направление называется Exploratory data analysis (EDA) [4, 48]. «РАД» позволяет синтезировать компактное и понятное для исследователя описание структуры данных или структуры зависимости переменных.
Традиционные методы анализа ЭЭГ
Анализ ЭЭГ, применяемый в клинической практике, представляет собой довольно грубые (с помощью циркуля и линейки) измерения амплитуды пиков, числа пересечений ЭЭГ осей за единицу времени и т.д. [13].
Очевидно, что такими методами невозможно точно оценить доминирующие частоты, так как они представляют собой результат наложения друг на друга различных колебаний, составляющих ЭЭГ [97]. Большинство выраженных частот остаются практически недоступными для анализа.
Не следует забывать и о субъективном факторе, играющем огромную роль при подобном анализе ЭЭГ. Это обусловлено большим количеством и расплывчатостью правил для формулировки заключения [53]. Наличие субъективного фактора, трудоемкость обработки огромного количества информации и большая затрата времени на расчеты побуждают исследователей обращаться к логической обработке экспертных знаний и методам автоматического анализа.
Воспользуемся сводной таблицей характеристик отечественных и зарубежных комплексов автоматизированной обработки ЭЭГ. Это позволит проанализировать основные направления автоматизированной обработки электроэнцефалограмм и возможности современной аппаратуры. Эта таблица заимствована из [100] и приводится в Приложении 1. Из таблицы видно, что в подобных системах решается широкий круг задач, начиная от планирования и стандартизации условий снятия данных и заканчивая постановкой предварительного диагноза.
Основной упор делается на сокращение рутинной работы и визуальное представлений данных, облегчающее и стимулирующее ассоциативное мышление исследователя. Использование современных компьютеров позволяет существенно уменьшить огромное количество первичных данных, получаемых при записи ЭЭГ, что подразумевает получение устойчивых статистических или детерминированных характеристик, количественное определение и анализ полученных параметров (распределение амплитуд, автокорреляционные функции и функции спектральной плотности и т.п.) [57].
ЭВМ значительно ускоряет процесс обработки больших массивов электрофизиологических данных, позволяет выделять информативные признаки для оценки патологических процессов, изменений функционального состояния мозга при различных воздействиях [85].
Также, можно производить оперативный анализ динамики электрофизиологических обследований и их статистическую обработку и получать качественное визуальное представление поля потенциалов мозга, а также проводить анализ ЭЭГ методами распознавания образов и формулировать заключения на основе полученных характеристик и экспертных знаний электроэнце-фалографистов [7].
Разработка компьютерных систем управления базами данных (СУБД) позволяет существенно уменьшить объем архива и упростить работу с ним, а также включает в себя возможность быстрого поиска необходимых записей.
Особенность человеческого восприятия заключается в том, что он способен опознавать изображения, выявлять их структуру, т.е. находить в них закономерности при изменяющихся условиях на фоне больших шумов. Он может обобщать частные и анализировать маловероятные, взаимно исключающие события. Из сказанного можно сделать вывод, что работа врача-диагноста с ЭВМ может быть эффективна только при рациональном распределении обязанностей между ним и машиной [69]. Его способность находить и использовать эвристические методы решения поистине уникальна. Важным преимуществом человека перед вычислительной машиной является его умение осмысливать неполную информацию и создавать цельное представление только по некоторым отдельным событиям [7]. В случае если какая-то часть задания не может быть четко определена заранее (что довольно часто для на учных исследований), то эта часть должна быть поручена человеку. Машины, в свою очередь, гораздо эффективнее человека справляются с такой рутинной работой, как запоминание подробной информации, проведение арифметических расчетов, построение графиков, таблиц, диаграмм и т. п.
Совершенно очевидно, что между творческой и формализуемой деятельностью нельзя провести четкую и постоянную границу. С развитием средств вычислительной техники и программного обеспечения она все время сдвигается. Сегодня с успехом выполняется вычислительными машинами то, что еще вчера считалось творческой работой. Повышение уровня "интеллектуальности" программного обеспечения изменяет и чисто психологическое отношение к вычислительной машине, которая из "инструмента " в руках исследователя превращается в его "коллегу" [4]. Развитие вычислительной техники и ее внедрение почти во все области научных исследований не обошло стороной и проблему анализа электрической активности мозга. В настоящее время, в нейрофизиологии [7, 97] выделены следующие основные аспекты применения ЭВМ:— исключение человека из области обработки информации и принятия решений за счет ее полной формализации;— разработка полностью автоматизированных экспертных систем, а также анализ ЭЭГ методами распознавания образов и формирование заключения на основе полученных данных;— уменьшение больших объемов первичных данных, получаемых при записи ЭЭГ;— создание так называемых систем "человек-машина", решающих множество вопросов количественной обработки сигнала, распознавания и представления информации в удобной для человека-оператора (в данном случае врача-нейрофизиолога) форме;— сокращение размерности признакового пространства;— получение устойчивых сттистических или детерминированных характеристик.
Очень удобным средством для хранения, поиска и повторного использования информации являются компьютеры. Кроме записей ЭЭГ, в памяти сохраняется дополнительная информация о пациенте, вводимая с клавиатуры, а так же текст клинического заключения. Поиск необходимого материала осуществляется за очень короткое время. Информация легко может копироваться и переноситься на другие компьютеры, вследствие чего происходит быстрое накопление данных для создания автоматизированных диагностических систем. Вводимые сигналы можно отображать на дисплее. Для записей ЭЭГ не нужны больше километры бумажной ленты. При этом регистрация на бумаге не является обязательной.
Сигналы представленные в аналоговой форме, получаемые на выходе канала усиления энцефало-графа, переводятся в цифровую форму при помощи аналого-цифрового преобразователя (АЦП) для дальнейшей обработки. Обычно применяют восьми или шестнадцатитиканальные устройства, создаваемые на базе персональных компьютеров. На экран, как правило, выводится Сигнал в виде восьмисекундных отрезков, оператор получает уже визуализован-ным.
Первым приближением к полностью автоматизированным диагностическим системам являются автоматизированные экспертные системы.
Уже более двух десятков лет проводится работа в этой области [52, 54, 58] и к настоящему времени уже имеются единичные программные средства [73, 98], позволяющие анализировать ЭЭГ с формированием врачебного заключения. В основу формирования медицинской базы знаний экспертной системы анализа ЭЭГ положена первичная оценка количественных и качественных характеристик ЭЭГ и, в случае выявления отклонений от нормы, их классификация по степени нарушений. При этом первичная классификация анализируемых ЭЭГ, как правило, проводится по следующим градациям [53]: норма, пограничная ЭЭГ, легкие, умеренные, значительные, грубые и очень грубые нарушения ЭЭГ, что, конечно, недостаточно для современной диагностики. При этом база знаний должна располагать и пополняться литера
Отбор информативных признаков и анализ особенностей структуры объектов
Как уже отмечалось, существует возможность отображения многомерной информации в пространстве низкой размерности. Для построения правил классификации с использованием методов визуализации необходимо произвести отображение многомерной информации о классифицируемых объектах в пространство, размерность которого не превышаетр 3, т.е. размерности, которая доступна восприятию зрительным аппаратом человека.
Производительность работы человека-оператора резко снижается, при одновременном отображении более 5-7 информативных компонент [7]. В ряде публикаций [36, 48, 83] по инженерной психологии указывается, что при решении задач, в которых задействуется образное мышление человека, наиболее эффективны модели в одно-, двух- и трехмерном пространстве. Не смотря на то, что отображения легко анализировать даже в двухмерном пространстве, тем не менее, хорошо развито программное обеспечение и для трехмерной компьютерной графики. Это принимается во внимание при разработке методов анализа структуры объектов и построения правил классификации в двухмерном пространстве. При неудовлетворительном качестве решений, полученных в двухмерном пространстве, необходимо также разработать модифи кации базисных методов для работы в трехмерном пространстве. Выделение из р исходных признаков q наиболее информативных показателей, является целью анализа системы признаков. Исходным тезисом при решении задачи выявления q наиболее информативных показателей из исходного набора р признаков является утверждение [4], что вектор показателей х1г..., хч заданной размерности q тем более информативен, чем больше различие в законах его вероятностного распределения, описывающего различные классы. При введении меры попарного различия dfpi; pj законов pi(X) и рг(Х) описывающих распределение вероятности вектора признаковХ-{х},..., xq} в классах К„ с номерами п — 1,2,..., N, то можно формализовать вышеприведенный принцип отбора наиболее информативных показателей X/,..., xqi определяя их из условия максимизации величины
Мерой различия между законами распределения вероятностей являются расстояния информационного типа (дивергенция Кульбака, расстояние Бхатачария, расстояние Махаланобиса). Признаки, для которых значение критерия (3.3) максимально, считаются наиболее информативными. Если значение этого критерия для системы из q признаков близко к значению критерия для системы р исходных признаков, то система из q параметров обладает такой же разделяющей способностью, что и исходная система признаков [106]. При использовании традиционных мер (Кульбака, Бхатачария, Махаланобиса) информативности, необходимо производить интегрирование многомерных плотностей вероятности, что на практике трудно осуществить даже в случае аналитического задания плотности вероятности. Оценка информативности признаков по разности условных по классам плотностей вероятностибазирующаяся на вариационном расстоянии Колмогорова [93]
Площадь под этой кривой равна упомянутому выше вариационному расстоянию Колмогорова. Используя параметр ${Х) = р{ХIКг)-р{ХIК2) можно произвести отбор q наиболее информативных признаков. Если вероятностные характеристики различных диагностических классов по исследуемому признаку совпадают, то 8{Х) = const - О. Следовательно,
Рисунок- 3.1 Пояснение статистического смысла выбранного критерия информативной значимости одномерных признаков: a) pi и р2 — плотности вероятности распределений объектов
Область значений параметра R — от 0 при полном совпадении вероятностных характеристик классов до 1 при полном несовпадении этих характеристик. Максимальные значения параметра R соответствуют признакам, в направлении которых распределения объектов имеют наиболее выраженные различия. При условии малой выборки, величины р(Х/К}) яр(Х/К могут быть оценены каким-либо непараметрическим методом (Аг-ближайших соседей, и др.). Рассмотрим это на примере использования метода гистограмм, как простого в вычислительном отношении и достаточно наглядного.функции плотности вероятности [2]. Если нас интересует малый отрезок [х;х+Д] и мы подсчитали, что в этот отрезок попало и-Д(х)=у(х+Д)- v(x) наблюдений нашей выборки, то выборочным аналогом величиныЗначение (3.11) характеризует плотность наблюдений исследуемой случайной величины в окрестности точки х, т.е. относительную частоту этих наблюдений, приходящуюся на единицу длины интервала ее возможных зна 75 чений. Эти две характеристики неограниченно сближаются в процессе увеличения объема выборки (N— -со) и сужении длины интервала Д (Д— оо). Можно считать, что число объектов, попавших в каждую ячейку, приблизительно характеризует плотность вероятности даже при конечных величинах JV и Д.Чтобы в последующем можно было оперировать с гистограммой, как с оценкой плотности вероятности, необходимо, чтобы она обладала основными свойствами последней. В первую очередь это свойства не отрицательности и нормировки. Первое требование выполняется в силу того, что число объектов не может быть отрицательным.
Для выполнения условия нормировки необходимо, чтобыт.е. сумма значений всех ячеек гистограммы равнялась 1. Для этого под-считывается общее число объектов выборки N и значение каждой из ячеек делится на это числоТакже, необходимо нормировать и область изменения параметра Xj чтобы границы ячеек гистограмм для разных классов совпадали. Удобно использовать в качестве области определения гистограмм интервал [0;1].
Используя найденные по всей выборке значений xt т\п и х( тах значение і -го признака нормируется (во всей выборке без разделения на классы) относительно величиныВсе признаки x оказываются, распределены в интервале [0;1]. Значения Xi mm и Хіти запоминаются. Таким образом, к выборке объектов как бы до бавляются два дополнительных объекта с параметрами признаков, граничными сверху и снизу для всей совокупности обучающей выборке.
Примерный вид гистограмм і -го признака для каждого из имеющихся классов, показан на рисунке-3.2
Дискретным аналогом величины R в (3.16) является величинагде S — число ячеек гистограмм.Обследованный диапазон [x(-m;n; л:, max] разбивается на определенное число s равных интервалов фуппирования. При этом число интервалов s не должно быть меньше 8-Ю и больше 20-25. Выбор количества интервалов существенно зависит от объема выборки N. Для примерной ориентации при выборе s можно пользоваться приближенной формулой [3]
Выбор оптимальной модели ЭЭГ-сигнала
Анализ перечисленных выше сигналов ЭЭГ показал, что в отсутствие артефактов и эпилептиформной активности, их распределения хорошо аппроксимируются многомерным нормальным законом и симптоматические различия, устанавливаемые врачом-экспертом, заключаются в различии мо-ментных функций процессов второго и более высоких порядков. Так, например, наличие патологической Д- и -активности у взрослого бодрствующего человека характеризуется большими значениями интервала корреляции автокорреляционной функции процесса, по сравнению со случаем нормальной а-и р-активности. Кроме того, для получения набора признаков, традиционные методы машинного анализа ЭЭГ также используют спектральный анализ. Подобную систему признаков можно сформировать с помощью тестового сигнала, спектральные свойства которого можно было бы описать в виде функции некоторых специфичных параметров. Для того чтобы полученная модель являлась адекватной поставленной задаче, необходимо, чтобы спектральные характеристики испытательного сигнала совпадали с характеристиками реальных ЭЭГ. Известно [51, 62], что энергия сигнала, получаемого при записи ЭЭГ, распределена в четырех основных диапазонах А, 0, а, р. Максимальные и минимальные уровни сигналов в этих диапазонах хорошо известны. некоторого импульсного линейного фильтра, который из дискретного белого шума х [К], подаваемого на его вход формирует на выходе дискретный случайный процесс с заданными спектрально-корреляционными характеристиками.
Коэффициенты Ск можно получить путем разложения функции спектральной плотности Gfto) в ряд Фурье:
Каждый из спектров G(im) можно рассматривать, как спектр на выходе некоторого фильтра с передаточной функцией К ю), на вход которого подается нормальный шум с ограниченным частотой б)с спектром, спектральная плотность которого в этом диапазоне равномерна:
где S0 - спектральная плотность шума на входе фильтра. Требуемый сигнал с полимодальной спектральной плотностью можно представить в виде функции от параметров, легко интерпретируемых и с медицинской и с технической точки зрения [21]:{шок}- центральные частоты Д, 0, а, Э диапазонов;{crj- параметры, характеризующие ширину полосы по заданномууровню в пределах к -го частотного диапазона; {AJ- максимальная амплитуда к -го спектрального пика.
Условию (4.5) удовлетворяет бесконечное множество линейных систем [29], которые отличаются друг от друга фазочастотними характеристиками, являющимися аргументами комплексной функции K(jco). Фазовый спектр ЭЭГ исследован недостаточно хорошо и в диагностике практически не используется. Поэтому в соответствии с рекомендациями в [22] целесообразно выбрать одну из этих систем с фазочастотной характеристикой Р(о) = comt = (4.6)
Предлагаемый алгоритм получения испытательного сигнала может быть записан в следующем виде:1. Целенаправленно задаются параметры {а и}, {ак}, \Ак}, соответствующие 2. По формуле (4.4) вычисляется коэффициент передачи фильтра с параметрами (4.7).3. Сигнал на выходе этого фильтра можно получить, используя формулу взвешенного суммирования (4.8): где коэффициенты Ck получены путем разложения заданной функции спектральной плотности в ряд Фурье, формула (4.3), по методике, приведенной в [22].
Для моделирования не стационарности ЭЭГ параметры {о)0к },{ег4}, {Ак} можно сделать зависящими от времени. Приведенный алгоритм является приближенным ввиду конечного числа слагаемых во взвешенной сумме (4.8). Коэффициенты С «.так же вычисляются приближенно, (интеграл (4.3) вычисляется на интервале, ограниченном частотой сос). Однако, увеличив N и сос, можно аппроксимировать заданную функцию спектральной плотности с любой наперед заданной точностью [22].
Представленная математическая модель не претендует на точное описание нейрофизиологической природы ЭЭГ, так как является чисто эмпирической и формальной. Главной целью построенной модели является воспроизведение только спектральных свойств процесса.
Смоделированный процесс близок к реальному ЭЭГ- сигналу только по спектральным характеристикам. Подбор параметров модели производился с использованием анализа подлинных записей ЭЭГ, поэтому сигналы, синтезированные с помощью данного алгоритма, визуально и по спектральным характеристикам почти не отличается от реальных ЭЭГ- сигналов.
Все выше сказанное дает основания полагать, что приведенный алгоритм можно использовать для отладки автоматизированных диагностических систем, которые анализируют нестационарные процессы с использованием спектрального анализа.Выше описанная модель ЭЭГ- сигнала не учитывает моментньгх функций процессов второго и более высоких порядков.
Поэтому в качестве цифровой модели ЭЭГ- процессов лучше использовать рекуррентные процедуры, предназначенные для формирования на ЭВМ нормальных процессов с заданными корреляционными функциями. 106 Данные модели не претендуют на полную адекватность медико-биологическим сигналам, они лишь отражают спектральные или корреляционные свойства процессов, что позволяет использовать их при разработке диагностических систем.
В качестве модели ЭЭГ-сигналов, соответствующих различным состояниям ЦНС, предлагается использовать нормальные случайные процессы с экспоненциально-косинусной корреляционной функциейгде ах- средне квадрати чес кое отклонение процесса X(t); тк, F - параметры, характеризующие скорость затухания и частоту осцилляции корреляционной функции.
В таблице - 4,2 приведены оценки параметров корреляционной функции ЭЭГ-процессов, диагностически соответствующих 5 группам пациентов.По заданным параметрам ох, т , F, в пакете MATLAB были сгенерированы реализации моделей процессов, диагностически соответствующих 5 группам пациентов. Длина каждой реализации 1000 отсчетов. Интервал дискретизации 0,005 секунды.
Реализации процессов и их корреляционные функции изображены на рисунке- 4.3 Для проведения эксперимента из базы медицинских данных были выбраны вектора реализаций двух процессов ЭЭГ диагностически соответствующих двум группам пациентов, относящимся соответственно, к классу «гипертенсиндром» (база 1.4) и классу «эписиндром» (база 1.14).Размер векторов 10000 отсчетов. Максимальная частота спектра Fmax=30 Hz, частота дискретизации Fs=200 Hz.