Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Параметрический метод обучения нейронной сети при решении задач прогнозирования Аюпов Ильнур Рашидович

Параметрический метод обучения нейронной сети при решении задач прогнозирования
<
Параметрический метод обучения нейронной сети при решении задач прогнозирования Параметрический метод обучения нейронной сети при решении задач прогнозирования Параметрический метод обучения нейронной сети при решении задач прогнозирования Параметрический метод обучения нейронной сети при решении задач прогнозирования Параметрический метод обучения нейронной сети при решении задач прогнозирования Параметрический метод обучения нейронной сети при решении задач прогнозирования Параметрический метод обучения нейронной сети при решении задач прогнозирования Параметрический метод обучения нейронной сети при решении задач прогнозирования Параметрический метод обучения нейронной сети при решении задач прогнозирования Параметрический метод обучения нейронной сети при решении задач прогнозирования Параметрический метод обучения нейронной сети при решении задач прогнозирования Параметрический метод обучения нейронной сети при решении задач прогнозирования
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Аюпов Ильнур Рашидович. Параметрический метод обучения нейронной сети при решении задач прогнозирования: диссертация ... кандидата технических наук: 05.13.01 / Аюпов Ильнур Рашидович;[Место защиты: Национальный исследовательский университет «МИЭТ»].- Москва, 2015.- 93 с.

Содержание к диссертации

Введение

Глава 1. Обзор методов прогнозирования 15

1.1. Анализ существующих систем прогнозирования в медицине 15

1.2. Номограммы и зарубежные системы прогнозирования 18

1.3. Важность проведения ранней диагностики 20

1.4. Выводы по главе 21

Глава 2. Выбор оптимальной модели системы прогнозирования. Подготовка данных 22

2.1. Анализ методов построения базы знаний 22

2.2. Методы подготовки и структурирования данных 24

2.3. Создание специализированных вопросников 25

2.4. Создание пар сигналов 26

2.5. Обработка данных для обучения 28

2.6. Адаптивный метод на основе нейронных сетей 30

2.7. Обучение нейронной сети. 31

2.8. Выбор объема сети

2.8.1. Удаление наименее полезных переменных 34

2.8.2. Выбор категорий выходных эталонов 35

2.8.3. Методы проектирования в пространство с меньшей размерностью 2.9. Методы, улучшающие производительность алгоритма обратного распространения. 43

2.10. Критерий остановки 56

2.11. Выводы по главе 57

Глава 3. Параметризация прогностического алгоритма 59

3.1. Эксперименты Фогеля. 60

3.2. Генетический алгоритм 61

3.3. Объединение адаптивного и генетического алгоритмов 65

3.4. Обучение нейронной сети при параметризации 66

3.5. Выводы по главе 68

Глава 4. Численные эксперименты и анализ результатов прогнозирования 69

4.1. Программная реализация модели прогнозирования 69

4.2. Примеры рассмотренных историй болезни 72

4.3. Результаты исследования 76

4.4. Выводы по главе 78

Заключение 79

Приложение 93

Номограммы и зарубежные системы прогнозирования

В практической работе клиницист любой специальности сталкивается с необходимостью объективной оценки своей деятельности, прогноза протекающих в организме больного процессов. Особенно это важно для хирургов, проводящих оперативные вмешательства при онкологических процессах - на предоперационном этапе очень важно спрогнозировать степень распространенности злокачественно процесса, оценить целесообразность выполняемой операции. Одними из первых попыток прогнозирования данных патоморфологического заключения были таблицы Партина [30, 31] и номограммы Катана [32] - прогностические модели и номограммы на основе анализа онкокритериев. Они были разработаны на больших выборках пациентов - более 3000 человек, однако их достоверность не превышает 50-70%. Один из основных недостатков существующих прогностических моделей — четкая зависимость их достоверности от популяции и выборки больных, на которых они разработаны. Применение данных методик при анализе других популяций и выборок приводит к явному снижению их прогностической ценности. Это не решало вопросов, встающих перед оперирующим хирургом о степени поражения раком, поражении лимфоузлов. Комплексное изучение прогностических факторов при хирургическом лечении рака предстательной железы является важной задачей, решение которой позволит до операции более точно прогнозировать патоморфологическую стадию процесса и, соответственно, улучшит результаты хирургического лечения больных раком простаты. Поэтому разработки более точных прогностических моделей продолжались. В Memorial Sloan-Kettering Cancer Center [33] создана номограмма, учитывающая возраст, уровень ПСА, первичный и вторичный паттерны Глисона, количество позитивных и негативных биоптатов, клиническую стадию (7 параметров), что позволяет более точно спрогнозировать патоморфологическую стадию. Но в практической работе клиницисту приходится учитывать большее чисто параметров, чтобы составить для себя представление об истинной картине заболевания. Поэтому возникает потребность в такой математической модели, которая способна учитывать влияние большого количества параметров и именно для нашего региона проживания, т.к. разница в континентах проживания пациентов, вносит большую специфику в диагностические процедуры (важно рассчитывать прогностические показатели именно для российской группы пациентов).

Большинство систем прогнозирования в онкоурологии не решают проблему выбора оптимального варианта лечения для конкретного пациента, т.к. прогнозирование ведется по небольшому числу параметров и не учитывается специфика здоровья конкретного человека. Таким образом, у специалиста возникает проблема оценить множество возможных рисков, взвесить целесообразность проведения операции пациенту. Для решения данной задачи необходима система прогнозирования, которая учитывает различные факторы, позволяющие уточнить диагноз, и предложить врачу оптимальный комплекс лечебных мероприятий. Построение накапливаемой о состоянии здоровья и лечении пациентов базы знаний поможет собрать опыт специалистов, для последующего его использования при принятии решения о методах лечения.

Для решения задачи прогнозирования оптимальным является использование нейронной сети. Обучение искусственных нейронных сетей является важным элементом при построении математических моделей на их основе, потому очень важно определить глобальный минимум многопараметрической функции ошибки, нахождение которого является результатом оптимального процесса обучения на имеющемся наборе данных.

В диссертации предложен вариант построения собственной интеллектуальной системы – создание прогностической системы на основе нейронной сети, обучение которой основано на параметрическом методе.

Использование нейронных сетей эффективно по той причине, что они позволяют учитывать изменяющуюся динамику лабораторных исследований и делать обобщения. Это позволяет избежать рассмотрения многочисленных правил логического вывода «если-то», используемых в экспертных системах.

В настоящее время онкоурология обладает широкими возможностями для ранней диагностики рака простаты, что является большим шагом вперед для выявления злокачественного процесса в железе на клинически-локализованных стадиях – когда после выполнения оперативного вмешательства можно добиться полного излечения заболевания. Но у оперирующего хирурга всегда остаются сомнения - насколько достоверно дооперационное стадирование, целесообразно ли проведение такой сложной и объемной операции.

Построение единой информационной системы прогнозирования и мониторинга – важная задача для всех непосредственных участников лечебно-диагностического процесса. Требуется создание унифицированной структуры, в которой содержание информации о пациенте будет связана с историей болезни. Данная структура должна одинаково трактоваться участниками.

Несмотря на все достижения современной медицины, внедрение новых методов диагностики и лечения, заболеваемость и смертность от онкологических заболеваний во всем мире продолжает неуклонно расти.

Многочисленными исследованиями доказано, что прогноз заболевания в значительной степени зависит от своевременности постановки диагноза опухоли, что придает огромное значение ранней диагностике. К сожалению, у 60–80% больных с впервые установленным диагнозом рака определяются II-III стадии заболевания [9]. Возможными причинами столь поздней диагностики являются поздняя обращаемость пациентов, стертая клиническая картина, а также недостаточная онкологическая настороженность врачей первичного звена здравоохранения. К сожалению, когда появляются клинические симптомы, речь идет уже о запущенных стадиях заболевания, поэтому наиболее перспективным для ранней диагностики представляется выявление рака на доклинической стадии.

Обработка данных для обучения

Каждому из межнейронных весов сети (их общее число обозначим через N) соответствует одно измерение в многомерном пространстве размерностью N. Пусть (N+1)-е измерение соответствует ошибке сети. Для всевозможных сочетаний весов соответствующую ошибку сети можно изобразить точкой в N+1 -мерном пространстве, и множество таких точек образуют там некоторую поверхность - поверхность ошибок. Цель обучения нейронной сети состоит в том, чтобы найти на этой многомерной поверхности точку глобального минимума. Для облегчения поиска глобального минимума необходимо провести центрирование данных, т.е. все входные переменные должны быть предварительно обработаны так, чтобы среднее значение по всему множеству входных векторов было близко к нулю. Пусть имеется матрица переменных X размерностью Ixj, где / - число пациентов (строк), а У -число переменных, данных по состоянию здоровья у конкретного пациента (столбцов). Тогда центрирование будет выполняться следующим образом: вычитание из каждого столбца xj среднего (по столбцу) значения, определяемого, как т} ={ху+... + ху)11. Для оценки практической значимости правила о среднем значении можно рассмотреть случай, когда все входные переменные положительны. В этом случае синаптические веса (межнейронные весовые связи) нейрона первого скрытого слоя могут либо одновременно увеличиваться, либо одновременно уменьшаться. Следовательно, вектор весов этого нейрона будет менять направление, что приведет к зигзагообразному движению по поверхности ошибки. Такая ситуация обычно замедляет процесс обучения и, поэтому, неприемлема. В медицинских публикациях при описании данных можно встретить представление числовых значений в виде среднего и стандартного отклонения. Проанализировав собранные данные о пациентах, можно предположить, используя центральную предельную теорему [35], что рассматриваемые медицинские данные нормально распределены. Поэтому при анализе имеющихся данных, можно учитывать правило «трех сигм» - что практически все значения нормально распределённой случайной величины лежит в указанном интервале (вероятность этого 0.9974), а именно ограниченно утроенным значением стандартного отклонения в окрестности среднего значения. Величины, далекие от среднего значения, могут оказать влияние на сеть, которое не адекватно ошибке, которую они вызывают. По этой причине проводился анализ данных, которые отклоняются от среднего значения на значительную величину. Если эти данные действительно могли содержать в себе ошибки или их отклонение обусловлено влиянием внешних параметров (к примеру, перенесенная болезнь пациента, которая оказала существенное влияние на определенный вид анализов), то данные такого пациента не используются при обучении нейронной сети.

Искусственные нейронные сети представляют собой систему соединенных и взаимодействующих между собой простых процессоров (искусственных нейронов). Каждый процессор подобной сети имеет дело только с сигналами, которые он периодически получает, и сигналами, которые он периодически посылает другим процессорам. И, тем не менее, будучи соединенными в достаточно большую сеть с управляемым взаимодействием, такие локально простые процессоры способны выполнять довольно сложные задачи прогнозирования - какими являются, в частности, медицинские задачи.

Нейронные сети представляют собой нелинейные системы, позволяющие гораздо лучше классифицировать данные, чем обычно используемые линейные методы. Для искусственных нейронных сетей под обучением понимается процесс настройки архитектуры сети (структуры связей между нейронами) и весов синаптических связей (коэффициентов, которые влияют на сигналы) для эффективного решения поставленной задачи.

Задача прогнозирования лечения рака предстательной железы относится к классу трудно формализуемых задач. Для принятия правильных тактических решений в процессе лечения и последующих реабилитации и наблюдения, необходимо анализировать большое число различных данных одновременно. Влияние каждого из этих факторов на исход лечения неоднозначно и нелинейно. Для облегчения практического решения подобных задач многофакторного анализа, моделирования и прогнозирования отдаленных результатов в работе использованы нейронные сети.

Для построения базы знаний необходима удачно спроектированная и обученная нейронная сеть. Процедура, которая используется для процесса обучения, выстраивает значения синаптических весов, находящихся в определенном порядке, для обеспечения необходимой структуры взаимосвязей нейронов. Таким образом, если значение синаптического веса между двумя нейронами уменьшается, это свидетельствует о том, что взаимосвязь между ними ослабевает, и наоборот. Входными данными для нейронной сети является вектор данных о состоянии здоровья пациента, выходными – данные о вероятности возникновения тех или иных осложнений, характерных для пациентов, находящихся в зоне риска заболевания.

Объединение адаптивного и генетического алгоритмов

Поиск и удаление тех переменных, которые связаны с другими входными переменными [85], является одним из шагов при понижении размерности. Также следует удалить те переменные, которые, независимо от других переменных, обладают малой способностью к предсказаниям или совсем не обладают ею. Поэтому важно установить является ли отдельная переменная бесполезной, или же ее необходимо рассматривать в совокупности с другой переменной.

При анализе данных для минимизации размерности входных векторов можно руководствоваться двумя методами – либо пониманием, какие данные между собой коррелированы, т.е. несут избыточную дублирующую информацию, либо использованием аналитические методы. Определенные подсказки могут быть получены с помощью простейших статистических методов. Например, для категорийных задач используется t-критерий Стьюдента [87] для того, чтобы сравнить распределения каждой из переменных в разных классах, и оставить для обработки только те, которые достоверно различаются. Независимость разных входных переменных может быть оценена посредством вычисления ковариации для каждой пары переменных. Ковариация пары переменных х и у вычисляется по формуле и является мерой изменения одной переменной при изменении другой.

Вычисления для каждой пары дают в результате матрицу пхп , ковариационную матрицу. Пары переменных с высокими значениями ковариации являются зависимыми, поэтому одна переменная из пары может быть исключена из входных данных. Эффективный метод удаления переменных из модели состоит в построении нейронной сети с большим количеством входов и с малым количеством скрытых элементов. Если весовые коэффициенты сети инициализированы малыми случайными значениями, то весовые коэффициенты от малозначащих входных переменных в процессе тренировки сети не испытают значительных изменений по отношению к исходным значениям [85]. Следовательно, входные переменные, весовые коэффициенты при которых изменились в процессе тренировки незначительно, могут быть отброшены. Далее проводится тренировка этой, усеченной сети с новым набором данных (оставшиеся входы). К недостаткам этого метода следует отнести значительное время тренировки большой сети. К достоинствам метода следует отнести то, что имеется возможность сравнить качество работы уменьшенной сети с исходной сетью и сделать вывод о корректности произведенного понижения размерности входных данных.

Количество значений выходного вектора можно уменьшить с использованием анализа, основанного на вычислении энтропии [86]. Поскольку выход определяет каждую категорию как дискретное событие, мера предсказуемости каждой категории может быть увеличена на основе анализа энтропии каждого выхода, полученного при анализе каждого входа. Категории с высокими значениями энтропии хуже поддаются предсказанию. Battiti Roberto [94] показал, как можно использовать теорию информации для выбора набора входных значений нейронной сети. Вычисляя взаимную информацию между каждой входной переменной и набором эталонных выходов тренировочного набора данных, он указал на возможность выбора единственной особенности с наибольшей предсказательной способностью для выходов. Следующие особенности могут быть отобраны по двум критериям. Новая особенность может предсказать кое-что о выходах, но она не может предсказать ничего существенного об уже выбранных входных переменных. Другими словами, новая переменная должна содержать часть взаимной информации с выходами, которые должны быть созданы сетью, но меньшую часть взаимной информации с переменными, уже выбранными в качестве входов сети. Используя предложенный метод, можно выбрать набор независимых переменных, которые хорошо предсказывают выходные данные. Этот метод также позволяет добиться хороших результатов за сравнительно короткое время.

Главные компоненты Наиболее общим методом уменьшения количества входных переменных является выделение главных компонент из исходного набора данных [89]. После того, как вычислена ковариационная матрица, можно комбинировать пары переменных с высокими значениями ковариантности таким образом, чтобы новые переменные описывали исходные данные как можно полнее. Это эквивалентно тому, как если была нарисована регрессионная кривая на основе исходных данных и представлена новая точка как расстояние вдоль этой линии. Повторив эту процедуру N раз для N - мерного набора данных, получается новый набор точек, которые хорошо описывают исходные данные, но в другой системе координат. Преимущество новых координат состоит в том, что можно упорядочить новые координаты по отношению к вариабельности в исходном наборе данных. И таким образом, можно использовать новый набор данных взамен изначальному.

Для понижения размерности с помощью метода главных компонент [89] (англ. principal component analysis, PCA) необходимо использовать ковариационную матрицу. При этом следует получить набор векторов, называемых собственными векторами, которые могут быть использованы в качестве новой системы координат, на которую будут спроектированы исходные данные. Т.е. собственные векторы служат осями новой системы координат. Каждый собственный вектор характеризуется скалярной величиной, которая называется собственным значением.

Morris A.J. [142] отметил, что этот метод имеет недостаток, так как данный метод является линейным. Так что при попытке использовать его при анализе нелинейной системы можно получить неверные результаты. Эта проблема возникает в тех случаях, когда имеются нелинейности во входных данных. В случае, когда входные данные линейны, но их связь с выходами является нелинейной, проблемы не существует. Авто-ассоциативные сети

Авто-ассоциативная сеть является решением проблемы, поднятой Morris, и представляет собой нелинейный метод, достаточно лёгкий в использовании [91]. Этот метод включает построение многослойного перцептрона, в котором в качестве эталонных выходов используются входы. Такая сеть с одним скрытым слоем, число элементов в котором меньше, чем количество входов, может быть использована для выделения (экстракции) особенностей во входных данных. В обучении авто-ассоциативной сети "учителем" является сама входная информация. Обычно сеть имеет скрытый слой меньшей размерности, который выделяет наиболее значимые признаки во входной информации. Авто-ассоциативные сети с таким слоем оказываются полезны при решении задач обработки данных высокой размерности, так как позволяют сократить объем данных [91].

Если входные данные были преобразованы к другому набору переменных, то возникают трудности в интерпретации выходных данных сети по отношению к исходным входным данным [85]. Это особенно важно в тех случаях, когда возникает необходимость использовать выходную информацию для того, чтобы внести изменения во входные данные.

Многие типы данных несут указания на способ уменьшения размерности. Например, звук и другие волновые процессы могут быть подвергнуты преобразованию Фурье, после чего можно использовать только компоненты из заданной полосы частот. Изображения можно сегментировать и затем кодировать. Текстовые данные о людях могут быть перекодированы в меньшее количество категорий [85].

Примеры рассмотренных историй болезни

Один из создателей эволюционного программирования Л.Фогель рассматривал интеллектуальное поведение индивида, как способность успешно предсказывать поведение среды, в которой он находится, и в соответствии с этим действовать. В 60-x годах прошлого века Л. Фогель поставил ряд экспериментов [34] по созданию искусственных систем, способных адаптироваться к первоначально не известной им среде.

В проведенных экспериментах Л. Фогель моделировал поведение простейшего живого существа, названного «флиб», которое способно предсказывать изменения параметра среды, данный параметр среды обладает периодичностью. Это существо моделировалось конечным автоматом с действиями на переходах – автоматом Мили [38]. В качестве среды выступала последовательность символов над двоичным алфавитом. Задача состояла в эволюционном построении автомата, способного как можно более точно в смысле выбранной функции приспособленности (например, числа совпавших символов) предсказывать поведение среды – угадывать следующий символ последовательности. Предпочтение отдавалось автоматам, угадывающим как можно лучше, и в то же время имеющим как можно меньшее число состояний.

В начале эксперимента [34] задавалась периодическая последовательность символов над двоичным алфавитом, и выбирался префикс данной последовательности малой длины. После этого создавалась популяция автоматов с небольшим числом состояний. Затем каждый из автоматов путем мутаций производил потомка. Далее над потомком подобным образом производилось еще несколько мутаций. Получившийся в результате мутаций автомат добавлялся в популяцию.

После добавления потомков в популяцию на всех ее особях вычислялась функция приспособленности. Половина наиболее приспособленных особей переносилась в популяцию следующего поколения, а менее приспособленные автоматы - отбрасывались. Таким образом, размер популяции оставался постоянным.

По мнению Л. Фогеля, результаты экспериментов показали, что эволюционное программирование может быть успешно применено для построения интеллектуальных искусственных систем.

Подобно исследованиям Фогеля эволюционное программирование присутствует у генетического алгоритма. Генетический алгоритм - это эвристический алгоритм поиска, используемый для решения задач оптимизации и моделирования путём случайного подбора, комбинирования и вариации искомых параметров с использованием механизмов, аналогичных естественному отбору в природе [37]. Он является разновидностью эволюционных вычислений, с помощью которых решаются оптимизационные задачи с использованием методов естественной эволюции, таких как наследование, мутации, отбор. Отличительной особенностью генетического алгоритма является акцент на использование оператора «скрещивания», который производит операцию рекомбинации решений-кандидатов, роль которой аналогична роли скрещивания в живой природе. Схематично структура работы генетического алгоритма для определения весов межнейронных связей у созданной адаптивным методом нейронной сети показано на рис. 13.

Основные этапы генетического алгоритма: создание нового набора. На этом шаге создается начальный набор, который, вполне возможно, окажется не идеальным, однако велика вероятность, что алгоритм эту проблему исправит. Главное, чтобы он соответствовал «формату» и был «приспособлен к размножению»; Рис. 13 Операции скрещивания и мутации размножение. Для получения потомственного набора требуется два родителя. Главное, чтобы потомок мог унаследовать у родителей их «черты». При этом размножаются все, а не только выжившие, иначе выделится один лидирующий набор, весовые коэффициенты которого «перекроют» всех остальных (т.е. определится доминирующий набор межнейронных связей), что является принципиально не приемлемым вариантом; мутации. Мутации схожи с размножением, из мутантов выбирают количество связей, определенное в алгоритме, и изменяют их в соответствии с заранее определенными операциями;

Турнирный отбор. Турнирный отбор может быть описан следующим образом: из набора, содержащего N строк, выбирается случайным образом t строк и лучшая строка записывается в промежуточный массив (между выбранными строками проводится турнир). Эта операция повторяется N раз. Строки в полученном промежуточном массиве затем используются для скрещивания (также случайным образом). Размер группы строк, отбираемых для турнира часто равен 2. В этом случае происходит двоичный/парный турнир, а t называется численностью турнира. Чем больше турнир, тем более жесткий вариант селекции, т.е. тем меньше шансов у каждого набора. Преимуществом данной стратегии является то, что она не требует дополнительных вычислений и упорядочивания строк в популяции по возрастанию приспособленности. Также, такой вариант селекции ближе к реальности, т.к. успешность того или иного набора во многом определяется его окружением, насколько оно лучше или хуже ее.

Похожие диссертации на Параметрический метод обучения нейронной сети при решении задач прогнозирования