Содержание к диссертации
Введение
Глава 1. Проблемы автоматизации дифференциальной диагностики новообразований головного мозга 13
1.1 Структурный анализ медицинской диагностики как процесса распознавания новообразований головного мозга 13
1.2. Анализ методик исследования головного мозга 17
1.3. Классификация новообразований головного мозга и статистика встречаемости 19
1.4. Показатели, характеризующие состояние головного мозга на томограммах 20
1.5. Виды томограмм, способы их получения 23
1.6. Интерпретация результатов исследований головного мозга на магнитно-резонансном томографе 27
1.7. Медицинские автоматизированные информационные системы 29
1.8. Концепция архитектуры автоматизированной информационной системы поддержки принятия решений при диагностике новообразований головного
мозга по магнитно-резонансным томограммам 37
1.9.Постановка задач диссертации 41
Выводы 42
Глава 2. Автоматизация анализа томограмм головного мозга 43
2.1. Постановка задачи автоматизированного анализа томограмм 43
2.2. Выбор импульсной последовательности для автоматического анализа изображения 44
2.3. Общая методика распознавания патологии и ее характеристик на томограммах головного мозга 46
2.3.1.Обработка томограмм головного мозга 47
2.3.2. Определение наличия очага патологического сигнала и его выделение на томограмме 51
2.3.3. Выявление патологии среди нормальных анатомических структур головного мозга 55
2.3.4. Анализ и выявление признаков на томограмме 64
2.3.4.1. Признаки, подлежащие автоматизации 64
2.3.4.2. Перенос выделенной области с TIRM изображения на изображения ТІ и Т2 взвешенности 64
2.3.4.3. Измерение интенсивности изменения сигнала от патологии по сравнению с нормальным сигналом от ткани мозга на ТІ и Т2 66
2.3.4.4. Измерение размера патологии 68
2.3.4.5. Определение формы патологии 70
2.3.4.6. Определение полушария, в котором находится патология 71
2.3.4.7.Определение наличия геморрагии в патологическом участке 72
2.3.4.8. Определение наличия субдуральной гематомы 73
2.3.4.9. Измерение количества очагов патологического сигнала и вывод характеристик 74
Выводы 76
Глава 3. Автоматизация процесса постановки диагноза 77
3.1. Система поддержки принятия решений, основанная на интеллектуальном анализе данных 77
3.2. Выбор деревьев классификации для принятия решений 79
3.2.1. Описание метода деревьев решений 79
3.2.2.Использование в медицине 81
3.2.3.Преимущества деревьев решений по сравнению с другими методами интеллектуального анализа 82
3.2.4.Недостатки деревьев 84
З.З.Алгоритмы построения деревьев решений 84
3.3.1. Алгоритм ЮЗ 85
3.3.2.Алгоритмы С4.5 и С5 86
3.3.3. Алгоритм CART 88
3.3.4. Преимущества и недостатки существующих алгоритмов построения деревьев решений применительно к задаче медицинской диагностики 92
3.4. Комбинированный алгоритм построения дерева решений основанный на отделении однородных групп наблюдений 95
3.4.1. Описание алгоритма 95
3.4.2. Критерий отделения однородных групп 101
3.4.3. Обработка пропущенных значений 104
3.4.4. Останов работы алгоритма 105
Выводы 105
Глава 4. Программные компоненты автоматизированной системы диагностики внутричерепных новообразований . 106
4.1. Структура системы 106
4.1.1. База данных 108
4.1.2. Информационная подсистема 113
4.1.3. Разработка программного модуля обработки томограмм головного мозга и распознавания патологии 115
4.1.4. Разработка диагностической подсистемы 116
4.2. Предварительный анализ данных 117
4.2.1. Сравнение точности классификации тех же диагностических данных на других алгоритмах построения деревьев решений 127
4.2.2. Оценка работы алгоритма на числовых данных 130
Выводы 131
Заключение 132
Список литературы 133
Приложения 143
- Показатели, характеризующие состояние головного мозга на томограммах
- Выявление патологии среди нормальных анатомических структур головного мозга
- Преимущества и недостатки существующих алгоритмов построения деревьев решений применительно к задаче медицинской диагностики
- Сравнение точности классификации тех же диагностических данных на других алгоритмах построения деревьев решений
Введение к работе
Актуальность работы. За последнее время в связи с ростом индустриальной оснащенности человечества, с ухудшением экологической обстановки, резко возросло количество опухолевых заболеваний. Одними из самых серьезных являются опухоли головного мозга, поражающие центральную нервную систему и нарушающие важные функции организма.
По данным НИИ им. Бурденко за 2008г. процент нахождения опухолей среди пациентов, обратившихся с жалобами к невропатологу, составляет порядка 7-8%, причем с каждым годом этот процент постепенно растет. В связи с этим встает необходимость раннего выявления и точной диагностики опухолей головного мозга. Это также объясняется особой тяжестью этих заболеваний из-за локализации объемного процесса в области мозговых центров и тру дно доступностью для хирургического вмешательства.
На сегодняшний день существует множество способов исследования головного мозга, но наибольшим преимуществом в диагностике опухолей мозга обладает магнитно-резонансная томография. При проведении обследования на томографе, врач получает возможность исследовать структурные и патологические изменения, четко оценить локализацию и распространенность патологии, определить ее характер и воздействие на прилежащие структуры мозга.
Из-за большого разнообразия опухолей и их признаков на томограммах головного мозга, а также в связи с проблемой распознавания их среди других заболеваний, диагностика новообразований является трудоемким процессом, требующим от врача больших временных затрат. Это связано с чтением справочной литературы, а также с частой необходимостью консультаций с другими докторами. Так же сложность составляет то, что поиск аномальных зон на томограммах осуществляется визуальным способом. При наличии малоконтрастных объектов на изображении их легко пропустить.
Сложность и трудоемкость диагностики новообразований головного мозга требует разработки новых алгоритмов и программных средств обработки и анализа данных, получаемых с магнитно-резонансных изображений, с целью повышения достоверности поставленного диагноза. Это позволит повысить качество диагностики и снизить вероятность возникновения врачебных ошибок, что напрямую повлияет на дальнейшее лечение и позволит сократить количество смертельных случаев от этих заболеваний.
В связи с вышеизложенным, становится актуальной создание системы поддержки принятия решений врача-радиолога при диагностике новообразований головного мозга, которая помимо советов пользователю-врачу будет выполнять функцию распознавания области патологического сигнала на томограмме и определять характеристики этой области.
Цель работы. Разработка методов и алгоритмов для системы поддержки принятия решений врача-радиолога, обеспечивающих повышение качества диагностики новообразований головного мозга за счет применения методов распознавания образов и компьютерного анализа данных. Для достижения поставленной цели необходимо решить следующие задачи:
проанализировать пути повышения эффективности диагностики опухолей головного мозга, рассмотрев диагностический процесс с точки зрения системного анализа;
сформировать набор признаков, позволяющий выявлять новообразования среди других заболеваний головного мозга;
разработать методы выделения области патологии на томограмме;
разработать алгоритмы определения основных характеристик найденной патологии;
разработать автоматизированную систему поддержки принятия решений для врача-радиолога, включающую методы распознавания томограмм головного мозга и алгоритмы анализа данных;
провести оценку работы предложенных методов и алгоритмов на контрольных выборках.
Объектом исследования является автоматизированная система диагностики новообразований головного мозга по магнитно-резонансным томограммам.
Предметом исследования является информационное, методическое и программно-алгоритмическое обеспечение системы.
Методы исследований. Для решения поставленных задач использовались методы системного анализа, распознавания образов и обработки изображений, экспертного оценивания, основные положения теории вероятности, математической статистики и деревья решений.
Научная новизна. В диссертации получены следующие результаты, характеризующиеся научной новизной:
- метод выделения очага повышения сигнала на томограммах головы, за
ключающийся в выделении области вещества мозга от окружающих его тканей
черепа и анализе крутизны спада гистограммы яркости изображения.
метод выделения патологии среди других структур головного мозга с повышенным сигналом на томограмме, отличающийся учетом априорной информации о признаках нормальных анатомических структур мозга.
алгоритмы определения основных характеристик патологической зоны на томограмме, отличающиеся обработкой патологических очагов на серии томограмм головного мозга, а также подсчетом количества этих очагов во всем мозге. Определение характеристик осуществляется с учетом всех импульсных последовательностей, использующихся при сканировании головного мозга.
алгоритм построения дерева решений, основанный на отделении от общей выборки групп наблюдений по критерию максимальной однородности, отличающийся улучшенным критерием ветвления, способом обработки пропущенных значений и высокой скоростью работы на больших объемах трудно формализуемых данных.
Практическая значимость. Разработанные методы и алгоритмы составили основу построения автоматизированной системы поддержки принятия решений, применение которой в процессе диагностики новообразований головного мозга позволяет повысить диагностическую эффективность и сократить время анализа.
Разработанный модуль распознавания патологии, практические испытания которого показали высокое качество выделения патологических структур головного мозга, помогает врачу обратить внимание на различные патологии, в том числе малоконтрастные и патологии малых размеров, что ведет к сокращению врачебных ошибок.
В рамках выявления характеристик патологии осуществляется распознавание субдуральной гематомы по специфическим признакам от других патологий головного мозга, что позволяет повысить практическую ценность системы и открыть новые пути дальнейшего ее совершенствования.
Научное положение, выносимое на защиту.
При разработке системы диагностики новообразований головного мозга по МРТ изображениям необходимо использовать методы выделения очага повышения сигнала и его характеристик на томограммах, а также алгоритмы интерпретации в виде деревьев решений, позволяющие повысить качество диагностики новообразований головного мозга.
Внедрение результатов работы.
Результаты работы внедрены в учебную деятельность кафедры хирургической стоматологии Тверской государственной медицинской академии, а также используются в учебном процессе кафедры автоматизации технологических процессов Тверского государственного технического университета при подготовке специалистов по направлениям 200401 - "Биотехнические и медицинские аппараты и системы" и 200402 - "Инженерное дело в медико-биологической практике".
Апробация работы. Основные положения и научные результаты диссертационной работы докладывались и обсуждались на следующих конференциях, совещаниях и семинарах: Всероссийской научно-технической конференции студентов, аспирантов и молодых ученых «Биомедсистемы» (Рязань 2007г.), XXI Международной научной конференции «Математические методы в технике и технологиях» (Саратов, 2008г.), Международной конференции «Информационные технологии в образовании, технике и медицине» (Волгоград 2009г.), Всероссийской научной школе для молодежи "Биомедицинская инженерия",«БМИ-2009» (Санкт-Петребург, ЛЭТИ), на VIII Всероссийской научно-практической конференции с международным участием "Информационные технологии и математическое моделирование" (ИТММ-2009, Томск).
Публикации. Основные теоретические и практические результаты диссертации опубликованы в 8 статьях и докладах, из них по теме диссертации 8, среди которых 1 публикация в ведущих рецензируемых изданиях, рекомендованных в действующем перечне ВАК, 1 статья в нерецензируемом журнале. 6 докладов доложены и получили одобрение на международных, всероссийских и межвузовских научно-практических конференциях перечисленных в конце автореферата
Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения и библиографического списка, включающего 87 отечественных и 28 зарубежных наименований. Работа изложена на 148 страницах машинописного текста, содержит 65 рисунков, 12 таблиц и одно приложение.
Показатели, характеризующие состояние головного мозга на томограммах
Для достижения поставленной цели необходимо решить следующие задачи: - проанализировать пути повышения эффективности диагностики опухолей головного мозга, рассмотрев диагностический процесс с точки зрения системного анализа; - сформировать набор признаков, позволяющий выявлять новообразования среди других заболеваний головного мозга; - разработать методы выделения области патологии на томограмме; - разработать алгоритмы определения основных характеристик найденной патологии; - разработать автоматизированную систему поддержки принятия решений для врача-радиолога, включающую методы распознавания томограмм головного мозга и алгоритмы анализа данных; - п ровести оценку работы предложенных методов и алгоритмов на контрольных выборках. Для решения вышеперечисленных задач, в работе предлагается методы и алгоритмы, обладающие научной новизной: - метод выделения очага повышения сигнала на томограммах головы, за ключающийся в выделении области вещества мозга от окружающих его тканей черепа и анализе крутизны спада гистограммы яркости изображения. - метод выделения патологии среди других структур головного мозга с повышенным сигналом на томограмме, отличающийся учетом априорной информации о признаках нормальных анатомических структур мозга. - алгоритмы определения основных характеристик патологической зоны на томограмме, отличающиеся обработкой патологических очагов на серии томограмм головного мозга, а также подсчетом количества этих очагов во всем мозге. Определение характеристик осуществляется с учетом всех импульсных последовательностей, использующихся при сканировании головного мозга. - алгоритм построения дерева решений, основанный на отделении от общей выборки групп наблюдений по критерию максимальной однородности, отличающийся улучшенным критерием ветвления, способом обработки пропущенных значений и высокой скоростью работы на больших объемах трудно формализуемых данных. В работе предполагается использовать методы системного анализа, распознавания образов, морфологических операций над изображением, экспертного оценивания, основные положения теории вероятности, математической статистики и теории управления биосистемами, деревья решений.
Объектом исследования является автоматизированная система диагностики новообразований головного мозга по магнитно-резонансным томограммам. Предметом исследования является информационное, методическое и программно-алгоритмическое обеспечение системы.
Научное положение, выносимое на защиту - при разработке системы диагностики новообразований головного мозга необходимо использовать методы выделения очага повышения сигнала и его характеристик на томограммах, а также алгоритмы интерпретации в виде деревьев решений, позволяющие повысить качество диагностики новообразований мозга.
Результаты работы внедрены в учебную деятельность кафедры хирургической стоматологии Тверской государственной медицинской академии, а также используются в учебном процессе кафедры автоматизации технологических процессов Тверского государственного технического университета при подготовке специалистов по направлениям 200401 - "Биотехнические и медицинские аппараты и системы" и 200402 - "Инженерное дело в медико-биологической практике".
Основные положения и научные результаты диссертационной работы докладывались на следующих конференциях, совещаниях и семинарах: Всероссийской научно-технической конференции студентов, аспирантов и молодых ученых «Биомедсистемы» (Рязань 2007г.), XXI Международной научной конференции «Математические методы в технике и технологиях» (Саратов, 2008г.), Международной конференции «Информационные технологии в образовании, технике и медицине» (Волгоград 2009г.), Всероссийской научной школе для молодежи "Биомедицинская инженерия" «БМИ-2009» (Санкт-Петребург 2009), на VIII Всероссийской научно-практической конференции с международным участием "Информационные технологии и математическое моделирование" (Томск, 2009).
Основные теоретические и практические результаты диссертации опубликованы в 8 статьях и докладах, из них по теме диссертации 8, среди которых 1 публикация в ведущих рецензируемых изданиях, рекомендованных в действующем перечне ВАК, 1 статья в нерецензируемом журнале. 6 докладов доложены и получили одобрение на международных, всероссийских и межвузовских научно-практических конференциях перечисленных в конце автореферата.
Диссертация состоит из введения, четырех глав, заключения и библиографического списка, включающего 87 отечественных и 28 зарубежных наименований. Работа изложена на 148 страницах машинописного текста, содержит 65 рисунков, 12 таблиц и одно приложение. Во введении обоснована актуальность темы диссертационной работы, сформулированы цели и задачи исследования, научная новизна и практическая значимость, приводится краткое содержание работы по главам.
В первой главе рассмотрены общие положения и особенности диагностики новообразований головного мозга на магнитно-резонансном томографе. Выявлены основные направления повышения качества диагностики.
Вторая глава посвящена разработке методов для автоматизированного анализа томограмм головного мозга, которые заключаются в предварительной обработке томограмм, выделении и обведении области патологии на изображении, распознавании ее среди нормальных анатомических структур, а так же выявлении основных характеристик.
Третья глава диссертации посвящена разработке алгоритмов принятия решений на основе признаков заболевания. Для этого выявлены недостатки существующих алгоритмов применительно к диагностике новообразований и разработан алгоритм построения дерева решений, отличающийся критерием ветвления, обработкой пропущенных данных а так же высокой скоростыо работы на больших объемах данных с пропусками.
В четвертой главе на основе предложенных методов и алгоритмов описана программная реализация системы диагностики новообразований, а так же проведена оценка точности системы на контрольных данных
Разработка предложенных методов и алгоритмов лежит в основе автоматизированной системы поддержки принятия решений, применение которой в процессе диагностики новообразований головного мозга позволит повысить диагностическую эффективность и сократить время анализа.
Выявление патологии среди нормальных анатомических структур головного мозга
Несмотря на то, что методы продукционных правил до сих пор активно используются в теоретической биологии и медицине, в клинической практике они не нашли широкого применения. Это связано, во-первых, с тем, что методы, ориентированные на обработку групповых данных, слабо применимы к отдельным объектам, а во-вторых, с особенностями самой медико-биологической информации. Решения в медицинских и биологических задачах зависят от большого количества неодинаковых по значимости факторов.
Поэтому, даже если удается выстроить правила вывода, связывающие условия задачи с решением, метод, как правило, хорошо работает только на той группе объектов, на которой производились исследования. Естественно, создать универсальный алгоритм невозможно, и при использовании метода для другой подобной группы объектов его почти всегда приходится полностью переконструировать практически заново.
Многолетние исследования, проводимые с самыми различными явными алгоритмами, показали, что медицинские задачи, имеющие неявный характер, решаются явными методами с точностью и удобством, совершенно недостаточными для широкого практического использования в конкретных задачах диагностики, прогнозирования и принятия решений [28].
Поиски и изучение неявных алгоритмов, позволяющих автоматически накапливать и затем использовать опыт при обучении [29], продолжаются уже давно [30]. Это послужило толчком к развитию нового научного направления -интеллектуальный анализ данных (ИАД). ИАД (англ. Data Mining) - междисциплинарная область, основными целями и задачами которой является обнаружение скрытой, ранее неизвестной и потенциально полезной информации в базах данных. Среди наиболее популярных средств data mining можно выделить нейронные сети, деревья решений, алгоритмы ограниченного перебора, нечеткую логику, дискриминантный анализ и другие [19].
С помощью нейросетей созданы и успешно функционируют многие автоматизированные системы. В одной из работ приводится метод выявления атеросклеротических бляшек в артериях [31]. Для этого применяется нейросеть, интерпретирующая флюоресцентные спектры, получаемые при исследовании тканей с помощью лазера. Аналогичным образом проводится диагностика заболеваний периферических сосудов [32], например, определение форм артериита [33]. Проводится комплекс исследований по использованию нейросетей для диагностики инфаркта миокарда [34]. Автор приводит данные по чувствительности (77,7%) и специфичности (97,2%) нейросетевого теста. В работе [35], кроме того, с помощью нейронной сети устанавливали диагностическую значимость клинических параметров при диагностике инфаркта миокарда. Нейро-сетевой анализ акустических сигналов позволяет проводить диагностику клапанных шумов сердца [36], и оценивать систолическую и диастолическую фазы сердечного сокращения с постановкой предварительного диагноза. Нейросети используются терапевтами для диагностики заболеваний печени по лабораторным данным исследования функций печени [37]; дифференциальной диагностики заболеваний печени [38] и желчного пузыря по УЗИ [39]. Актуальная проблема диагностики злокачественных новообразований, возможно, получит новый уровень осмысления с началом применения нейроал-горитмов. Так, в работе [40] показана 80%-я точность ранней диагностики меланом кожи - одного из самых злокачественных заболеваний. Деревья решений, как и нейросети, широко используются в медицинских приложениях уже более 20 лет. Заслуживают внимания несколько наиболее интересных разработок описанных в самых известных журналах и представленных на научных конференциях. Система ранней точной дифференциальной диагностики инфаркта миокарда имеет в своей основе дерево решений. Разработанные ранее несколько подходов для поддержки принятия решений при диагностике инфаркта с помощью продукционных правил, не нашли широкого применения. Технологии машинного обучения, включающие класификационные деревья и логит-регрессию, имеют большой потенциал для выработки простых, но точных советов врачу. Система основана на применении аппарата деревьев решений и регрессионного анализа [41]. Деревья решений используются в идентификации возможного неблагоприятного влияния лекарства на организм. [42], а также в диагностике туберкулеза и злокачественных образований плевры. Диагностика осуществляется с учетом клинических данных, во избежание биопсии. Для этого сравнили клинические симптомы и характеристики плевральной жидкости у пациентов с туберкулезом и злокачественными плевральными образованьями. Использован алгоритм деревьев решений С4.5. Точность диагностики составила 96,9%[43]. Байесовские нейронные сети и деревья решений соединены в одном алгоритме для диагностики недержания мочи у женщин [44]. Деревья решений используются для подтверждения диагноза пневмония в системе диагностики пневмоний. Для этого использована система See5, основой которой является алгоритм деревьев решений С5. Точность системы на обучающих данных составила 98%, а на тестовых 95% [45].
Система диагностики рака шейки матки также построена на деревьях решений. Она состоит из двух основных блоков: блок сбора данных - микроскоп, используется для получения изображений всей территории мазка автоматически. После этого изображение передается во второй блок, диагностический, для дальнейшего анализа. В качестве диагностической модели используется аппарат нечеткой логики, позволяющий отделить нормальные изображения от патологических. Система автоматически извлекает характеристики ткани — размер, периметр, интенсивность цвета клеток и т.п. Основываясь на этих характеристиках, система ставит окончательный диагноз с точностью 94% [46].
Еще одним направлением в развитии СППР является автоматизированная обработка и анализ медицинских данных. Большинство исследований в этой области связано с анализом ЭКГ, ЭЭГ сигналов, МРТ-спектров и т.п [76]. Российскими авторами создана автомтизированная система для диагностики бронхиальной астмы по показателям реоэнцефалографии, «MEDICAL TOOLBOX»[47], основанная на нейро-нечетком классификаторе. Классификатор создан в среде Matlab.
Классической проблемой в кардиологии является интерпретация ЭКГ, требующая значительного опыта врача. Сотрудники Университета Глазго (Великобритания) ведут исследования по применению нейросетей для ЭКГ-диагностики инфарктов миокарда [48]. Входными данными для сетей являются избранные параметры 12-канальной электрокардиограммы и 12-канальной век-торкардиограммы (длины зубцов, расстояния между зубцами). Интерпретация ЭКГ с помощью нейросетей была применена для диагностики злокачественных желудочковых аритмий [49].
Преимущества и недостатки существующих алгоритмов построения деревьев решений применительно к задаче медицинской диагностики
На начальном этапе развития интеллектуальных систем многие считали, что проблема получения знаний может быть успешно решена посредством диалога инженера по знаниям с экспертом, специалистом в прикладной области [88]. Но здесь проявился теперь общеизвестный парадокс - чем более квалифицирован специалист, тем менее он способен объяснить свои рассуждения. С другой стороны, разработчики интеллектуальных систем столкнулись с рядом задач, где специалист в принципе может описать на формальном языке "механизм" принятия решений, но не желает раскрывать свои профессиональные тайны, служащие источником его благосостояния и процветания.
Отмеченные причины обусловили в настоящее время приоритет другого подхода к созданию баз знаний интеллектуальных систем, получившего название "обнаружение знаний в базах данных" (knowledge discovery in databases -KDD). На сегодняшний день этот подход считается наиболее актуальным. Методам обнаружения знаний, ориентированным на поиск закономерностей в структурах экспериментальных данных, посвящено большое количество современных научных трудов, и их поток постоянно нарастает. Это происходит из-за того, что от специалиста не требуется излагать ход своих мыслей, а требуется лишь демонстрация образцов в виде наборов данных, с "привязанными" к ним результирующими суждениями эксперта (обучающая выборка). При этом поиском закономерностей в данных будет заниматься компьютерная программа.
Процесс KDD включает несколько этапов. Сюда относится накопление сырых данных, отбор, подготовка, преобразование данных, поиск закономерностей в данных, оценка, обобщение и структурирование найденных закономерностей. !, 62]
Проведенный в главе 1 настоящей работы обзор существующих медицинских систем показал, что на сегодняшний день методы интеллектуального анализа данных в медицине только начинают внедряться в России, тогда как за рубежом они получили уже достаточно широкое распространение. Диагностика новообразований - задача классификации объектов. Для классификации данных средствами data mining используется большое число различных методов и их комбинации. Перечислим наиболее известные и часто используемые методы [62]: Деревья решений. Определяют естественные "разбивки" в данных, основанные на целевых переменных. Сначала выполняется разбивка по наиболее важным переменным. Ветвь дерева можно представить как условную часть правила. Метод ограниченного перебора. Эти алгоритмы основаны на обнаружении некоторых аналогий в прошлом, наиболее близких к текущей ситуации, с тем, чтобы оценить неизвестное значение или предсказать возможные результаты (последствия). Нейронные сети. Здесь для предсказания значения целевого показателя используется наборы входных переменных, математических функций активации и весовых коэффициентов входных параметров. Выполняется итеративный обучающий цикл, нейронная сеть модифицирует весовые коэффициенты до тех пор, пока предсказываемый выходной параметр соответствует действительному значению. Нечеткая логика. Нечеткая логика применяется для анализа таких наборов данных, когда невозможно причислить данные к какой-либо группе. Можно только отнести данные к какой-либо группе, с некоторой вероятностью находящейся в интервале от 0 до 1, но не принимающей крайние значения. Нечеткая логика применяется в тех случаях, когда необходимо манипулировать степенью "может быть" в дополнении к "да" и "нет". Генетические алгоритмы. Этот метод использует итеративный процесс эволюции последовательности поколений моделей, включающий операции отбора, мутации и скрещивания. Для отбора определенных особей и отклонения других используется "функция приспособленности" (fitness function). Генетические алгоритмы в первую очередь применяются для оптимизации топологии нейронных сетей и весов. Однако, их можно использовать и самостоятельно, для моделирования. Дискриминантный анализ. Метод поиска линейной комбинации переменных, наилучшим образом разделяющей два или более класса. Кластерный анализ. Подразделяет гетерогенные данные на гомогенные или полугомогенные группы. Метод позволяет классифицировать наблюдения по ряду общих признаков. Для решения задач классификации с данными, содержащими пропущенные значения, на практике наибольшее распространение получил метод дерева решений, который позволяет определить набор правил классификации типа «Если - То». Далее рассмотрены основные положения метода дерева решений, а также преимущества этого метода применительно к поставленной задаче. 3.2. Выбор деревьев классификации для принятия решений 3.2.1. Описание метода деревьев решений Деревья решения являются одним из наиболее популярных подходов к решению задач Data Mining. Они создают иерархическую структуру классифицирующих правил типа "ЕСЛИ... ТО..." (ifhen), имеющую вид дерева. Для принятия решения, к какому классу отнести некоторый объект или ситуацию, требуется ответить на вопросы, стоящие в узлах этого дерева, начиная с его корня. Вопросы имеют вид "значение параметра А больше х?и. Если ответ положительный, осуществляется переход к правому узлу следующего уровня, если отрицательный — то к левому узлу; затем снова следует вопрос, связанный с соответствующим узлом. На рисунке 3.1 приведен пример дерева решений. Это дерево представляет собой совокупность узлов и листьев, которые на рисунке обозначены овалами и прямоугольниками. В узлах записанные условия (тесты), а в листьях — метка класса. Следует подчеркнуть, что методы анализа, основанные на построении деревьев решений, чаще всего применяются для выявления таких параметров, которые наиболее важны для принятия однозначного решения, а также в случаях, когда требуется разбиение исходных данных на очевидные группы по каким-либо признакам. Дерево решений обычно строится по схеме [62] (рисунок 3.1.).
Сравнение точности классификации тех же диагностических данных на других алгоритмах построения деревьев решений
Исследование методов интеллектуального анализа данных (ИАД) в интеллектуальных системах (ИС) показало, что деревья решений являются наиболее эффективными для решения задач, имеющих неявный характер, в частности, медицинских задач с большим объемом данных и требующих объяснения полученного результата [62, 64, 97].
Примером медицинской системы, использующей деревья решений, может служить «Система интеллектуальной поддержки деятельности врача для решения задачи прогнозирования и выбора лечения диабетических ретинопатии и нефропатии»[65] .
С помощью метода «деревьев решений» построены процедуры классификации вероятного варианта течения диабетических ретинопатии и нефропатии у пациентов как на основании данных первичного обследования, так и на основании динамики факторов риска при наблюдении за больным. Верификация полученных прогностических моделей показала высокий процент совпадения теоретически ожидаемого прогноза и реального значения варианта течения исследуемых микроангиопатий (точность прогноза составляла от 75 до 85%).
Выбор метода деревьев решений применительно к задаче медицинской диагностики обусловлен некоторыми преимуществами деревьев перед другими методами ИАД [62,63].
Основные преимущества деревьев решений: 1) Деревья решений позволяют создавать классификационные модели в областях, где достаточно сложно формализовать знания; 2) Точность моделей оказывается достаточно высокой; 3) Деревья решений дают возможность извлекать правила из базы данных на естественном языке; 4) Алгоритм создания дерева решений не требует от пользователя выбора входных атрибутов. На вход алгоритма можно подавать все существующие атрибуты, алгоритм сам выберет наиболее значимые среди них и только они будут использованы для построения дерева; 5) Быстрый процесс обучения. На построение классификационных моделей при помощи алгоритмов создания деревьев решений требуется значительно меньше времени, чем, например на обучение нейронных сетей; 6) Большинство алгоритмов конструирования деревьев решений имеют возможность специальной обработки пропущенных значений; 7) Деревья решений работают и с числовыми, и с категориальными типами данных; 8) Деревья решений способны решать такие задачи ИАД, в которых отсутствует априорная информация о виде зависимости между исследуемыми данными. Для области медицинской диагностики многие из перечисленных пунктов являются ключевыми. Эта область является трудно формализуемой, содержит, как правило, большие объемы данных, характеризуется нечеткими входными значениями (симптомами) выходными (диагнозом) [64, 94]. При всей неоднородности, неточности и нечеткости входных данных медицинская диагностика требует точного результата. Некоторые алгоритмы деревьев решений обладают высокой точностью классификации. Деревья идеально приспособлены для графического представления результатов, и поэтому сделанные на их основе выводы легко могут быть интерпретированы врачом. Медицинские данные имеют различный формат - как числовые, так и категориальные. Здесь очень выделяется преимущество деревьев, так как они могут работать с любыми типами данных [66,67]. Пропущенные значения в медицинских данных встречаются очень часто, поэтому необходим механизм обработки пропущенных значений, которым обладают некоторые алгоритмы построения деревьев решений. Таким образом, этот подход позволяет представить в программе логику составления последовательности вопросов врачом и имитировать процесс принятия решения при постановке диагноза. Вместе с тем определенные ограничения обусловлены тем, что алгоритм и база данных представляют собой единое целое. Попытка внести какие-либо изменения в работу алгоритма влечет за собой коренное изменение структуры самого алгоритма и элементов информационного содержания. При этом трудно заранее предполагать, каким образом изменится результат диагностической процедуры. В алгоритмах с жесткой схемой существует риск игнорирования редких, но патогномоничных симптомов. Недостатками могут считаться - проблема повторений некоторых частей дерева (replication problem) при построении деревьев решений, создание в некоторых случаях трудно интерпретируемых правил и переобучение классификатора на отдельных обучающих коллекциях. Несмотря на недостатки, преимущества деревьев решений позволили им стать одними из самых популярных методов интеллектуального анализа данных. Таким образом, актуальной становится задача создания диагностической модели дерева решений, которая была бы лишена вышеперечисленных недостатков. 1) Построение или создание дерева — решаются вопросы выбора критерия ветвления и остановки обучения (если это предусмотрено алгоритмом) 2) Сокращение дерева — решается вопрос отсечения некоторых ветвей. На сегодняшний день существует большое число алгоритмов, реализующих деревья решений: CART, Id3, С4.5, Chaid, CN2, Newld, ITrule и другие. Самыми известными и широко используемыми являются алгоритмы Id3, CART и С4.5 [68].