Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Извлечение знаний из таблиц данных при помощи обучаемых и упрощаемых искусственных нейронных сетей Царегородцев Виктор Геннадьевич

Извлечение знаний из таблиц данных при помощи обучаемых и упрощаемых искусственных нейронных сетей
<
Извлечение знаний из таблиц данных при помощи обучаемых и упрощаемых искусственных нейронных сетей Извлечение знаний из таблиц данных при помощи обучаемых и упрощаемых искусственных нейронных сетей Извлечение знаний из таблиц данных при помощи обучаемых и упрощаемых искусственных нейронных сетей Извлечение знаний из таблиц данных при помощи обучаемых и упрощаемых искусственных нейронных сетей Извлечение знаний из таблиц данных при помощи обучаемых и упрощаемых искусственных нейронных сетей Извлечение знаний из таблиц данных при помощи обучаемых и упрощаемых искусственных нейронных сетей Извлечение знаний из таблиц данных при помощи обучаемых и упрощаемых искусственных нейронных сетей Извлечение знаний из таблиц данных при помощи обучаемых и упрощаемых искусственных нейронных сетей Извлечение знаний из таблиц данных при помощи обучаемых и упрощаемых искусственных нейронных сетей Извлечение знаний из таблиц данных при помощи обучаемых и упрощаемых искусственных нейронных сетей Извлечение знаний из таблиц данных при помощи обучаемых и упрощаемых искусственных нейронных сетей Извлечение знаний из таблиц данных при помощи обучаемых и упрощаемых искусственных нейронных сетей
>

Данный автореферат диссертации должен поступить в библиотеки в ближайшее время
Уведомить о поступлении

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - 240 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Царегородцев Виктор Геннадьевич. Извлечение знаний из таблиц данных при помощи обучаемых и упрощаемых искусственных нейронных сетей : диссертация ... кандидата технических наук : 05.13.16.- Красноярск, 2000.- 158 с.: ил. РГБ ОД, 61 01-5/1091-0

Содержание к диссертации

Введение

Глава 1. Проблема извлечения знаний и обзор методов извлечения знаний 11

1.1 .Знание и приобретение знаний 11

1.1.1. Определение понятия "знание" 11

1.1.2. Приобретение знаний 13

1.2. Методы извлечения и приобретения знаний 14

1.2.1. Приобретение знаний, обучение и обобщение по примерам в теории классических экспертных систем 15

1.2.2. Методы извлечения знаний из таблиц данных 19

1.3. Требования к технологии извлечения знаний 26

Глава 2. Искусственные обучаемые нейронные сети 29

2.1. Искусственные нейронные сети 29

2.1.1. Элементы нейронных сетей 30

2.1.2. Архитектура нейронных сетей 33

2.2. Решение задач нейронными сетями 34

2.2.1. Подача входных сигналов сети 35

2.2.2. Обучение нейронной сети 37

2.2.3. Вычисление градиента функции оценки по адаптивным параметрам нейронной сети 38

2.2.4. Обучение нейронной сети как градиентная оптимизация 42

2.2.5. Факторы, влияющие на успешность обучения нейросети 43

2.2.6. Упрощение нейронной сети 44

2.3. Нейронная сеть как объект, формирующий неявное знание о

процессе решения задачи, и извлечение знаний из нейронной сети 45

Глава 3. Упрощение нейронных сетей 47

3.1. Методы упрощения нейронных сетей 47

3.1.1. Контрастирование синапсов нейросети 48

3.1.2. Контрастирование нейронов нейросети 54

3.1.3. Контрастирование входных сигналов нейросети 57

3.1.4. Бинаризация синапсов 60

3.1.5. Упрощение нелинейных преобразователей нейронов 61

3.1.6. Дополнительные модификации алгоритмов контрастирования 61

3.1.7. Методы модификации структуры обученной сети 62

3.2. Требования к процессу упрощения сети для извлечения знаний 62

3.3. Упрощающие операции над нейронной сетью 64

3.4. Процедура комплексного упрощения нейронной сети 67

Глава 4. Методы извлечения знаний из искусственных нейронных сетей 70

4.1. Существующие методы извлечения знаний из обученной нейросети 70

4.1.1. Методы на основе квантования сигналов нейронной сети 71

4.1.2. Методы извлечения знаний параллельно с обучением сети 76

4.1.3. Методы извлечения знаний из обученной нейросети 77

4.1.4. Эффективность методов при решении практических задач 84

4.2. Методы извлечения знаний: требования к методам 85

4.3. Методология извлечения явных знаний, использующая технологию комплексного упрощения нейросети 88

4.4. Приемы повышения вербализуемости нейронной сети 93

4.4.1. Добавление синдрома в набор входных симптомов 93

4.4.2. Построение иерархии продукционных правил 94

4.4.3. Ручное конструирование сети из фрагментов нескольких логически прозрачных сетей 97

4.5. Примеры использования технологии извлечения явных знаний 99

4.5.1. Прогнозирование результатов выборов президентов США 100

4.5.2. Изучение современных связей между климатом и растительностью 103

Заключение 118

Литература 121

Введение к работе

Актуальность проблемы. Рассматривается задача автоматизированного и полуавтоматизированного порождения явных знаний - алгоритмов решения ранее неформализованных задач в различных проблемных областях.

При развитии теории экспертных систем (ЭС) алгоритмы решения, наборы продукционных правил - новые знания - появлялись в ходе совместной работы эксперта в проблемной области и специалиста-когнитолога. Было разработано множество моделей представления знаний и стратегий интервьюирования эксперта, схем логического вывода в базе знаний и проверок знаний на полноту и непротиворечивость, построены эффективно работающие ЭС, включающие тысячи правил. Однако, построение ЭС не под силу конечному пользователю и требует индустриальной технологии; из заложенных в систему фактов и аксиом автоматизированно можно выводить только новые факты для дальнейшего анализа их достоверности экспертом, но автоматизированно получать новые алгоритмы решения невозможно.

Задача извлечения явных знаний решается также и в ходе построения математических и статистических моделей и идентификации систем. При этом накладываются определенные ограничения на свойства таблицы данных; чаще всего используются линейные модели и квадратичный критерий качества, что не всегда приемлемо. Введение нелинейных моделей возможно только на основе эмпирических соображений пользователя, от которого требуется формализация модели с точностью до параметров. Однако, моделирующий подход позволяет быстро получать результат и доступен неспециалисту, поскольку требует от последнего только представления таблицы данных (обучающей выборки) в заданном формате. Для решения неформализованной задачи стало возможным отказаться от привлечения человека-эксперта.

В настоящей работе рассматривается порождение явных знаний в эмпирической или полуэмпирической форме по таблицам экспериментальных данных при помощи искусственных нейронных сетей. Под явным знанием

5 понимается алгоритм решения неформализованной эмпирической задачи

прогнозирования и/или классификации, построенный по обучающей выборке,

включающей набор независимых признаков (переменных) разной природы

(непрерывные, дискретные,..), измеренных в разных шкалах, и один или

несколько зависимых, целевых признаков. Алгоритм представлен в виде набора

продукционных правил логического вывода, семантическая интерпретация

которых далее выполняется пользователем.

Искусственные нейронные сети как универсальная параллельная

вычислительная модель появились еще до традиционных фон-Неймановских

компьютеров - с работы У.Мак-Каллока и В.Питтса 1943г. Одна из

нейросетевых парадигм - обучаемые по методу двойственности нейронные

сети - позволила отказаться при моделировании от линейных моделей и

обязательного задания пользователем вида нелинейной модели. Построение

нелинейных нейросетевых регрессоров, авторегрессоров и разделяющих

поверхностей стало простым делом. При обучении нейросеть формирует

некоторое "скрытое" знание - алгоритм решения неформализованной задачи.

Целью настоящей работы является построение гибкой технологии извлечения

скрытых знаний из нейросети и представления их в виде, максимальным

образом облегчающем дальнейший семантический анализ - содержательную

интерпретацию алгоритма в терминах прикладной проблемной области.

Степень научной разработанности темы. Активное исследование и применение нейронных сетей, обучающихся по методу двойственности, начинается в 1986г. Автррами метода двойственности в обучении нейросетей (известного также зарубежной литературе в виде алгоритма back-propagation) были В.А.Охонин и D.E.Rummelhart, G.E.Hinton, R.J.Williams. Затем в теорию и практику нейронных сетей внесли существенный вклад такие ученые, как А.Н.Горбань, Е.М.Миркес, С.Е.Гилев, В.Л.Дунин-Барковский, R.Hecht-Nielsen, Y. Le Cun, C.L.Giles, J.M.Zurada, J.W.Shavlik и другие.

Исследование механизмов извлечения явных знаний из обучаемых нейронных сетей ведется уже десятилетие - первые работы можно датировать

1988-1989гг. Первоначально были предложены методы, которые формируют набор правил, описывающий поведение нейронной сети на обучающей выборке, либо формируют набор правил путем рассмотрения в структуре сети наиболее значимых для принятия решения элементов и сигналов. Затем было предложено проводить предварительное упрощение нейронной сети с целью исключения из нее избыточных элементов для получения более простого и адекватного набора правил логического вывода.

Однако практически все предложенные алгоритмы извлечения знаний достаточно специализированы и не учитывают требования и предпочтения пользователя к виду извлекаемых знаний, а также не позволяют извлекать и комбинировать в едином наборе правила нескольких видов. Вдобавок, несмотря на предложение проводить предварительное упрощение нейросети, для алгоритмов извлечения знаний не были уточнены предпочтительные требования к результирующему виду сети. Более того, теория и практика упрощения продолжала развиваться без учета необходимости достижения в ходе упрощения требований, сформированных алгоритмом извлечения знаний.

Как отмечает проф. J.W.Shavlik из Висконсинского университета США, руководитель одной из наиболее активно работающих в мире групп по проблеме извлечения знаний с помощью нейронных сетей, решение проблемы далеко от желаемого и необходимой гибкости подхода достичь еще не удалось [Craven M.W., Shavlik J.W. Rule extraction: where do we go from here? Department of Computer Sciences, University of Wisconsin, Machine Learning Research Group. Working Paper 99-1. 1999]. Настоящая диссертационная работа ставит целью достижение необходимой гибкости путем систематизации и детализации механизмов упрощения и извлечения знаний и построения на их основе гибкой настраиваемой технологии решения задачи извлечения знаний из нейросети.

Объект исследования. Нейронные сети, решающие неформализованные прикладные задачи прогнозирования, классификации, диагностики и формирующие при своем обучении некоторый внутренний, скрытый, неявный алгоритм решения задачи - неявное знание.

7 Предмет исследования. Разработка методов и алгоритмов извлечения

явных знаний из нейронных сетей.

Цель работы. Целью диссертационной работы является разработка гибкой технологии извлечения знаний из нейронных сетей, настраиваемой с учетом предпочтений пользователя. Разработка методологических указаний для решения задачи извлечения знаний. Разработка программных средств, реализующих предлагаемую технологию.

Основные задачи исследования.

  1. Анализ разработанных методов упрощения нейронных сетей как средства получения более компактного и адекватного набора правил логического вывода при последующем извлечении явных знаний.

  2. Анализ разработанных методов извлечения явных знаний из нейронных сетей с указанием их ограничений и областей применимости.

  1. Формирование требований к технологии извлечения знаний, обсуждение применимости разработанных методов упрощения сети и извлечения знаний с учетом этих требований.

  2. Разработка гибкой, настраиваемой на основе предпочтений пользователя, технологии извлечения знаний, опирающейся на предварительное проведение комплексного упрощения нейронной сети, выполняющегося с учетом сформированных пользователем требований к результирующему виду извлекаемых знаний.

  3. Разработка программных средств, поддерживающих предлагаемую технологию, и экспериментальная проверка при решении реальных неформализованных задач.

Научная новизна работы.

  1. Впервые предложена гибкая технология комплексного упрощения нейросети, позволяющая проводить упрощение на основе ранжированного набора требований пользователя к виду результирующей нейросети и конструировать пользовательские стратегии упрощения нейросети.

  2. Впервые предложено перед извлечением знаний из нейросети выполнять

8 именно такое комплексное упрощение сети, которое приводит к получению

требуемого пользователем вида результирующих решающих правил и

учитывает особенности используемого метода извлечения знаний и его

предпочтения к виду сети.

3. Предложены следующие приемы, упрощающие и делающие более гибким

процесс вербализации (семантического анализа - осмысления в терминах

проблемной области) извлеченного из сети набора правил:

  1. На основе гипотезы о неединственности извлекаемых правил и учитывая, что разные фрагменты сети (поднаборы правил) будут более или менее правдоподобны и интерпретируемы, предложено конструирование новой, более понятной пользователю нейронной сети из наиболее просто интерпретируемых фрагментов других сетей, решающих ту же задачу.

  2. Предложено добавление выходного сигнала некоторого фрагмента сети (содержательно интерпретируемого и правдоподобного с точки зрения пользователя) в качестве нового интегрального признака в число независимых признаков таблицы данных, и решение задачи извлечения знаний на основе полученного расширенного набора признаков.

  3. Предложен механизм построения иерархической структуры правил вывода, от наиболее доминантных правил до уточняющих и корректирующих, путем последовательного усиления требований к точности решения задачи нейронной сетью.

Реализация результатов. Разработанные в диссертации методы реализованы в программе-нейроимитаторе NeuroPro. Программа реализует полный набор стандартных операций над нейронными сетями и позволяет выполнять весь цикл нейроанализа данных без привлечения других программных продуктов. Имеется большое число актов о внедрении программы в пробную эксплуатацию.

Практическая значимость. Разработанные в диссертации методы ориентированы на следующие применения: - Автоматизированное построение алгоритмов решения неформализованных

9 задач предсказания и классификации в различных проблемных областях на

основе нейронных сетей.

- Предоставление пользователю инструментов, облегчающих этап

интерпретации извлеченных из нейросети знаний.

На защиту выносится:

1. Номенклатура элементарных операций по упрощению нейронной сети,

вводимые на основе элементарных операций высокоуровневые критерии

простоты нейронной сети, способы конструирования критериев.

4 2. Гибкая настраиваемая технология комплексного упрощения нейронной

сети, опирающаяся на представленную номенклатуру элементарных

операций, на требования пользователя (критерии простоты нейросети) к

виду результирующей нейросети, на особенности и требования

применяемого далее метода извлечения знаний из нейросети и вида, в

котором знания должны быть представлены пользователю.

  1. Номенклатура извлекаемых элементарных правил, соответствующие им огрубляющие операции и виды высокоуровневых правил.

  2. Способ повышения интерпретируемости окончательного полуэмпирического алгоритма путем компоновки его из отдельных, наиболее просто интерпретируемых фрагментов других алгоритмов -других нейронных сетей, решающих данную задачу. Способ построения иерархии правил путем последовательного усиления требований к точности решения задачи. Предложение добавлять содержательно интерпретируемые синдромы (промежуточные рассуждения) к базе данных.

  3. Программа-нейроимитатор, реализующая предложенные технологии.

  4. Результаты практического применения нейроимитатора для решения прикладных задач.

Апробация работы. Основные положения работы докладывались на конференциях молодых ученых ИВМ СО РАН (Красноярск, 1998, 1999г), Международной научно-технической конференции "Нейронные, реляторные и непрерывнологические сети и модели" (1998г, Ульяновск), III Сибирском

10 конгрессе по прикладной и индустриальной математике "ИНПРИМ-98"

(Новосибирск, 1998г), VI, VII Всероссийских семинарах "Нейроинформатика и ее приложения", (Красноярск, 1998, 1999гг), I, II Всероссийских научно-технических конференциях "Нейроинформатика" (Москва, МИФИ, 1999, 2000гг), XII Международной конференции по нейрокибернетике (Ростов-на-Дон у, 1999г), II научно-практическом семинаре "Новые информационные технологии" (1999г, Москва, МГИЭМ), VI Международной конференции "Математика. Компьютер. Образование" (1999г, Пущино), International Joint Conference on Neural Networks (1999r, Washington, DC, USA). Разработанная программа-нейроимитатор NeuroPro демонстрировалась на этих конференциях.

Публикации. По теме диссертации автором опубликовано 13 печатных работ и 3 тезиса докладов.

Структура и объем диссертации. Диссертация состоит из введения, четырех глав, заключения, и списка литературы, изложенных на 134 страницах. Список литературы по теме диссертации содержит 153 ссылки на отечественных и зарубежных авторов. В работе содержится два приложения. Общий объем - 158 страниц.

Приобретение знаний, обучение и обобщение по примерам в теории классических экспертных систем

Исследуется автоматизированный процесс получения знаний, объясняющих имеющиеся факты и способных объяснять, классифицировать или предсказывать новые. В общем виде задача формулируется так [2]: по совокупности наблюдений (фактов) F, совокупности требований и допущений к виду результирующей гипотезы Н и совокупности базовых знаний и предположений, включающих знания об особенностях предметной области, выбранном способе представления знаний, наборе допустимых операторов, эвристик и др., сформировать гипотезу Н: H= F (Н "объясняет" F).

Общий вид гипотезы Н зависит от цели обобщения и выбранного способа представления знаний. Методы обобщения, включающие модели классификации, формирования понятий, распознавания образов, обнаружения закономерностей, определяются целями обобщения, способами представления знаний, общими характеристиками фактов, критериями оценки гипотез.

Для обобщения по выборкам совокупность фактов F имеет вид обучающей выборки - множества объектов, каждый из которых сопоставляется с именем некоторого класса. Целью обобщения в этом случае может являться: - формирование понятий: построение по данным обучающей выборки для каждого класса максимальной совокупности его общих характеристик [4]; - классификация: построение по данным обучающей выборки для каждого класса минимальной совокупности характеристик, которая отличала бы элементы класса от элементов других классов; - определение закономерности последовательного появления событий. К методам обобщения по выборкам относятся лингвистические модели, методы автоматического синтеза алгоритмов и программ по примерам и другие [2]. В методах обобщения по данным априорное разделение фактов по классам отсутствует. Здесь могут ставиться следующие цели: - формулирование гипотезы, обобщающей данные факты; - выделение образов на множестве наблюдаемых данных, группировка данных по признакам (задача формирования понятий, определенная в модели обобщения по выборкам, также часто ставится без априорного разбиения обучающей выборки по классам) [4]; - установление закономерностей, характеризующих совокупность наблюдаемых данных [5]. Подробное рассмотрение методов и библиография представлены в [2,31]. Рассмотрим кратко связь между задачами обобщения и классификации и задачами, решаемыми в рамках теории вероятностей и математической статистики. В математической статистике ставятся и решаются задачи вывода новых знаний на основании анализа совокупности наблюдений, при этом устанавливаются частотные закономерности появления событий: определяются общий вид и параметры функций распределения вероятностей событий по данным наблюдений, делаются выводы о степени статистической зависимости наблюдаемых случайных величин, проверяются гипотезы о характеристиках случайного события. Действительно, в задаче формализации и вывода знаний о реальном мире нельзя не учитывать наличия статистических закономерностей в его проявлениях. Общая же задача формирования гипотез по данным наблюдений не ограничивается установлением статистических закономерностей. Так, разработаны формально-логические модели выдвижения гипотез [6], которые используются в теории искусственного интеллекта. С точки зрения способа представления знаний и допущений на общий вид объектов наблюдений, методы обобщения делятся на методы обобщения по признакам и структурно-логические (или концептуальные) методы [2]. В первом случае объекты представляются в виде совокупности значений косвенных признаков. Методы обобщения и распознавания по признакам различаются для качественных (номинальных или порядковых) и количественных (измеримых) значений признаков. Структурно-логические методы, в отличие от признаковых, предназначены для решения задачи обобщения на множестве объектов, имеющих внутреннюю логическую структуру (последовательности событий, иерархически организованные сети, . характеризуемые как признаками и свойствами объектов - элементов сети, так и отношениями между ними). В формально-логических системах, использующих структурно-логические методы обобщения, вывод общих следствий из данных фактов называют индуктивным выводом. Сформулированы основные вопросы, на которые должны давать ответы индуктивные логики и методы выдвижения гипотез: 1. Является ли гипотеза Н обоснованной данным знанием? 2. Существуют ли методы обоснования Н при данном знании? 3. Каковы условия для Н при данном знании, такие, что Н дает наиболее разумное и интересное объяснение? 4. Существуют методы для выдвижения гипотез на основании данного знания, дающих наиболее разумное и интересное объяснение изучаемого явления? В экспертных системах (ЭС) для представления знаний об объектах используются обычно модификации языка исчисления предикатов без ограничения арности предикатных символов или адекватные им по выразительной мощности семантические сети [2]. Моделям обобщения на семантических сетях свойственны черты как алгоритмов обобщения по признакам, так и индуктивной логики. Здесь также определяется набор операторов, используемых при формировании обобщенного представления (гипотезы) Н, и выдвигаются критерии оценки "интересности" и обоснованности гипотез. Кроме того, в этих моделях широко используется характерный для обобщения по качественным признакам [7] аппарат теории покрытий и устанавливаются отношения на множестве значений признаков объектов-элементов сети. Методами структурного обобщения решаются обычно задачи классификации, формирования понятий, анализа сцен [2]. Для задачи обобщения по признакам известен следующий результат: каков бы ни был реальный вид разделяющей функция у/ (в общем случае -индуктивной гипотезы Н) и алгоритм ее формирования по обучающей выборке, всегда найдется такая (непустая) обучающая выборка, что сформированная функция ц/ (гипотеза Н ) явится некорректной (ложной). В связи с этим гипотезы принято оценивать с точки зрения их "разумности", "рациональности", "интересности". В [6] рациональность ответа на вопрос 1 (см. выше) индуктивного вывода понимается следующим образом. Пусть Ф — имеющиеся истинные утверждения, а ср - эмпирические данные. Тогда для порождаемой ложной гипотезы Ф,(р= у/ вероятностная мера наблюдения ц/на должна быть мала (например, меньше 0,05). Можно оценивать гипотезы с точки зрения мощностей подмножеств покрываемых ими элементов обучающей выборки. В ряде исследований для подтверждения или отрицания выдвигаемой гипотезы используются методы автоматического порождения новых элементов обучающей выборки, которые выдаются для классификации эксперту. Решающее правило переопределяется, пока не будет достигнута равновесная ситуация [2].

Вычисление градиента функции оценки по адаптивным параметрам нейронной сети

Обучение нейронной сети (нахождение таких значений адаптивных параметров сети, при которых все примеры обучающей выборки решаются с требуемой точностью) можно вести различными способами. Наиболее прост алгоритм случайного поиска в пространстве адаптивных параметров, однако требуемое им время обучения не позволяет применять алгоритм на практике.

В нейронной сети (в зависимости от ее размера) имеются от десятков до нескольких тысяч адаптивных параметров. Поэтому обучение ведут как градиентную оптимизацию функции оценки по адаптивным параметрам сети, поскольку вычисление градиента в нейросетевом вычислительном базисе происходит высокоэффективно. Изначально процесс градиентного обучения сети был предложен в виде градиентного спуска с постоянным шагом, а градиент при этом вычислялся для единственного примера выборки. После шага по градиенту осуществлялся переход к другому примеру выборки [34,37].

В качестве методов, совместное использование которых позволило ускорить первоначальную процедуру обучения на 4-5 порядков, были предложены следующие [34-36]: 1. Обучение нейросети по суммарному градиенту, получающемуся путем суммирования градиентов на отдельных примерах выборки. 2. Оптимизация шага вдоль направления спуска. 3. Использование более быстрых, по сравнению с градиентным спуском, методов оптимизации первого порядка, опирающихся на вычисленный градиент (таких, как метод сопряженных градиентов или квазиньютоновский BFGS-метод с ограниченной памятью). Рассмотрим факторы, от которых зависит успешность обучения нейросети правильному решению задачи. В первую очередь, сеть должна быть достаточно гибкой - иметь достаточное количество нейронов и связей. На основании обучающей выборки достаточно сложно определить, сколько слоев и нейронов сети необходимо. Поэтому обычно обучают сеть со структурой, предлагаемой программой-нейроимитатором по умолчанию, а затем, если сеть не может обучиться, обучают сеть большего размера. На практике при решении разнообразных задач практически не встречается ситуации, когда требуется нейросеть с более чем сотней нейронов - обычно хватает нескольких десятков нейронов и даже меньшего числа [35]. Но даже увеличение размера нейронной сети не поможет, если обучающая выборка противоречива: в обучающей выборке присутствуют задачи с одинаковыми условиями, но разными ответами (одинаковыми входными векторами данных, но разными выходными). Таким задачам нейросеть обучиться не может. Появление таких конфликтных задач может, например, означать недостаточность набора входных признаков, поскольку при расширении признакового пространства конфликтным задачам могут соответствовать разные значения добавляемого признака и критическая ситуация будет исчерпана. В любом случае пользователь должен решить эту проблему, хотя бы даже простым исключением конфликтных примеров. После обучения нейронной сети необходимо провести ее тестирование на тестовой выборке для определения точности решения не входивших в обучающую выборку задач. Точность правильного решения очень сильно зависит от репрезентативности обучающей выборки. Обычно при решении неформализованных задач в разных проблемных областях точность в 70-90% правильных ответов на тестовой выборке соответствует проценту правильных ответов при решении этих же задач специалистом-экспертом. Может оказаться так, что нейронная сеть обучилась, но дает много ошибок на тестовой выборке. Природу этого явления нужно изучать в каждом конкретном случае. Одна возможная причина - нерепрезентативность обучающей выборки, когда последняя не охватывает всего множества ситуаций (выборка мала или просто узкоспециализирована). Для задачи классификации причиной большого количества ошибок может быть неодинаковое число примеров разных классов - при тестировании нейросеть будет достаточно хорошо распознавать примеры класса, для которого в обучающей выборке было большинство примеров, и относить к этому же классу много примеров другого класса. Поэтому желательно, чтобы в обучающей выборке было примерно одинаковое число примеров для каждого класса, или, по крайней мере, не было отличия в их числе на порядок и более. Если же неравномерность распределения примеров по классам есть особенность проблемной области, то нужно использовать при обучении сети целевые функции "с весами" модификации стандартных штрафных функций, позволяющие уравнивать вклад примеров разных классов в суммарную функцию оценки [35,38,39]. По обучающей выборке невозможно сказать, какая структура сети (число слоев, элементов сети) требуется для решения задачи. Также не существует конструктивного алгоритма определения значений адаптивных параметров сети исходя из обучающей выборки. Хотя и был предложен подход [35,38] к анализу достаточности структуры сети при помощи оценки константы Липшица функции, вычисляемой сетью, и выборочной оценки константы Липшица для обучающей выборки, но он не учитывает влияния и вида используемой при обучении целевой функции (функции оценки) и некоторых других аспектов. Поэтому обычно задаются некоторой избыточной структурой сети и адаптивные параметры находят путем обучения сети, т.е. с привлечением методов оптимизации [34-38]. Это приводит к тому, что часто в нейронной сети присутствует некоторое число избыточных элементов, без которых можно вполне обойтись при решении задачи. Удаление таких элементов из нейросети называется упрощением сети. Упрощение нейронной сети преследует следующие цели [34,35,38]: - Получение нейросети, наиболее просто реализуемой технически и обеспечивающей максимальное быстродействие при аппаратной реализации. - Улучшение интер- и экстраполяционных способностей нейросети. - Сокращение числа входных сигналов сети (при сохранении требуемой точности решения задачи) для удешевления и ускорения процесса сбора информации, на основе которой нейросеть принимает решение. - Обеспечение (или облегчение) явной вербальной интерпретации процесса и результатов обработки данных. В настоящей работе и в Главе 3 основное внимание уделяется последней задаче, задача минимизации числа входных сигналов решается как побочная. Нужно отметить, что после проведения упрощения теряется такое свойство сети, как отказоустойчивость к повреждениям элементов. Поэтому для получения отказоустойчивых нейросетей разработаны специальные модификации алгоритмов обучения и упрощения, например, [40].

Требования к процессу упрощения сети для извлечения знаний

Критическому обзору идей, лежащих в основе методов контрастирования входов сети, посвящена работа Уоррена С. Сарле [85]. Все приводимые автором аргументы и примеры могут быть адресованы и к рассмотренным ранее методам вычисления показателей значимости синапсов и нейронов сети. Основные положения статьи таковы:

Имеется показатель значимости входа (показывающий, насколько изменится значение функции оценки или качество решения примеров выборки при удалении этого входа) и показатель чувствительности выходного сигнала сети к изменению на входе. Это - разные показатели, и их надо разделять. - Нельзя определять значимость входа через изменение остаточной дисперсии " модели после удаления этого входа и соответствующей перестройки модели - при наличии коррелированных признаков остающиеся признаки скомпенсируют отсутствие удаленного. - Использовать в качестве показателя значимости абсолютное значение веса синапса при входном параметре нельзя - могут быть как разные диапазоны изменения входов, так и разные их дисперсии. Стандартизация (нормирование) входов проблему не решает, поскольку используемые при нормализации полученные по выборке оценки минимума и максимума или матожидания и дисперсии могут при малых выборках достаточно сильно отличаться от истинных значений. - Использование произведения веса синапса, по которому проходит входной сигнал, на вес синапса, по которому нейрон разошлет свой выходной сигнал дальше, и усреднение этих произведений по всем выходным синапсам нейрона (см. [76,77]) не учитывает влияние функции активации нейрона (дополнительное домножение на величину активации, как сделано в [78], будет правильней). - Рассмотрение компоненты градиента выходного сигнала сети по входному сигналу предпочтительнее рассмотрений весов синапсов. Однако, опираться только на величины производных недостаточно в случае, когда планируется достаточно кардинальное изменение сети - контрастирование входа. Да и для дискретнозначных или бинарных входов производная, при вычислении которой использовалось малое изменение значения аргумента (численное дифференцирование) или аналитическое дифференцирование, не поможет -вход меняется более кардинально по сравнению с заложенным в производную изменением, а поскольку нейросеть является нелинейным объектом, последствие такого кардинального изменения может очень сильно отличаться от оцененных по производной последствий малого сдвига. - Усреднение производных по всему диапазону изменения входа в большом числе точек (т.е. получение репрезентативной выборки значений производных) требует сведения их в одно число - показатель значимости. Простое суммирование (или поиск среднего) тут применяться не может из-за того, что производные могут иметь как положительный, так и отрицательный знаки и при усреднении дать среднее вблизи нуля, хотя их абсолютные значения могут быть очень большими. Усреднять нужно модули или квадраты значений производных. Однако, нам нужна значимость не по всей области определения, а для той локальной области, в которой нейросеть находится сейчас, и захватывающей ту, в которую она перейдет при проведении упрощения. - Конечные разности, когда в качестве одной точки выступает текущее состояние входов, а в качестве второй - состояние после предполагаемой модификации, предпочтительнее производных. - Имеется проблема выбора константного значения, которым будет заменяться отконтрастированный входной сигнал. Тут мы сталкиваемся с проявлением нелинейности модели (может быть, при выбранном значении нейросеть будет выдавать кардинально отличающийся сигнал - либо из-за композиции и влияния нелинейностей, либо из-за того, что мы не учили нейросеть именно для этого значения параметра, и она допускает там значительную, неизвестную нам осцилляцию) вдобавок в вопросу о выборе значения - входной сигнал может быть распределен по отличному от нормального закону, поэтому средним значением интервала изменения заменять большинство сигналов будет нельзя. - Шум в данных, другие факторы тоже требуют учета путем обязательного оперирования с обучающей выборкой - рассмотрения только нейронной сети недостаточно. Теперь рассмотрим существующие методы контрастирования входных сигналов в свете критических положений статьи У.Сарле. В [86,87] вводятся показатели значимости первого порядка - частные производные выходного сигнала сети по входным сигналам. Усреднение по обучающей выборке - сумма квадратов (или сумма модулей) производных по отдельным примерам. Домножение на планируемые изменения входного сигнала, что требует У.Сарле, не производится. В [88] используется аналогичный подход, но на основе разностных аппроксимаций производных.

В [35,38,49] предложен подход первого порядка, усредняющий произведения частных производных целевой функции по входам сети на планируемые изменения величин сигналов. Усреднение ведется в некоторой норме по всем примерам обучающей выборки и нескольким точкам в пространстве адаптивных параметров сети. Т.о., удовлетворяются, фактически, большинство требований У.Сарле: используется усреднение модулей значений произведений производных по выборке и в нескольких точках (расположенных достаточно локально по сравнению со всей областью возможного изменения весов синапсов) и производится умножение на планируемое изменение величин сигналов. Вместо производных целевой функции можно использовать производные выходных сигналов сети по входным сигналам.

Методология извлечения явных знаний, использующая технологию комплексного упрощения нейросети

Как и для методов упрощения нейросети, для методов извлечения из сети знаний можно тоже ввести несколько классификаций. Так, в [94] представлено ранжирование методов извлечения знаний по следующим свойствам: - Накладываются ли ограничения на возможный вид нейросети (на структуру сети, число нейронов, входов и выходов сети, вид (непрерывный или дискретный) входных и выходных сигналов сети). - Модифицируется или нет обученная сеть при извлечении из нее знаний. - Делится ли непрерывнозначная входная и/или промежуточная (сигнал нейрона) переменная на интервалы, которым затем можно сопоставить лингвистические категории. Как происходит процесс этого деления. Квантование непрерывнозначных сигналов имеет целью получение для каждой входной переменной таких интервалов ее изменения, каждому из которых можно в дальнейшем сопоставить некоторую лингвистическую категорию. Порождаемые лингвистические категории можно использовать для процесса объяснения принятия сетью решения. При этом нейросеть продолжает оперировать исходными непрерывнозначными величинами - процесс нейросетевого принятия решения не изменяется. Отдельные методы позволяют переходить от непрерывнозначных сигналов к дискретнозначным либо путем сопоставления с каждым интервалом некоторого дискретного значения (и в дальнейшем дискретизации каждой непрерывнозначнои переменной по сопоставленным с ней значениям), либо путем некоторой модификации сети. В [88] разработан метод порождения и проверка гипотез о структурной и функциональной связи между входом и выходом, состоящий из трех этапов: 1. Определение "границ решения" - разбиение диапазонов значений непрерывных входных признаков на поддиапазоны, внутри которых правила принятия решения будут различаться (анализ структурных связей для построения условной модели, выбирающей ту или иную функциональную модель для последующего принятия решения). Работа ведется на уже обученной сети. Для каждого /-го входного сигнала строится график такого показателя чувствительности выходного сигнала сети к изменению /-го сигнала в точке х, принадлежащей диапазону значений сигнала: S,(x) = }Oj(i = x)-Oj(i = х + А)\, где j - номер примера обучающей выборки, О/і) - выходной сигнал сети при замене значения /-го входного сигнала/-го примера на заданную величину. Входные сигналы, содержащие границы решения, будут иметь высокие пики на своих графиках (соответствующие большим значениям производной выходного сигнала). Неинформативные сигналы пиков иметь не будут, высота их графиков будет малой. 2. Анализ чувствительности выхода к входу (определение значимых входных сигналов) - для определения причинно-следственной связи - путем вычисления показателя значимости входа как суммы по всем примерам выборки модуля разностной аппроксимации частной производной выходного сигнала по входному (также как в п.1, но используя только примеры выборки, без сканирования всей области определения). Формула аналогична накоплению показателей значимости в норме "сумма модулей" [35,49], но на основе разностной аппроксимации производной выходного сигнала сеги по входному (именно выходного сигнала, а не изменения значения функции оценки). Самостоятельного значения этот этап не имеет, используется внутри этапа 3. 3. Проверка гипотезы о существовании границы решения. Для наиболее чувствительного сигнала делим выборку на поднаборы (в зависимости от числа пиков на графике чувствительности для этого сигнала из п.1.), внутри которых сигнал принимает значения из соответствующего диапазона. Внутри каждого интервала исследуем значимость сигналов (п.2.) по соответствующему поднабору выборки. Если граница решения существует, то внутри этих интервалов будет различна чувствительность выходов по входам - каждый раз будут значимы другие входы. Далее можно использовать обычный регрессионный анализ - у нас уже есть выделение значимых признаков для каждого интервала, и можно надеяться, что внутри этих интервалов зависимость выхода от соответствующих интервалу наиболее значимых входных сигналов может быть линейна. Т.е. можно построить кусочно-линейную регрессионную модель. Аналогичный подход к определению границ решения на основе анализа производных выходного сигнала сети (именно выходного сигнала, а не функции качества) по входным сигналам использован в [94,95-97]. В [94] рассмотрено извлечение нечетких правил из сети-классификатора с непрерывнозначными входными сигналами. Для каждого входного сигнала формируются несколько лингвистических категорий (например, "малый", "ниже среднего", "средний", "выше среднего", "высокий" или иные в зависимости от физического смысла сигнала) и соответствующие каждой лингвистической категории нечеткие функции принадлежности. Процесс построения правил использует только входные и выходные сигналы сети и выполняется путем перебора всех возможных сочетаний лингвистических категорий НЕ. входах с вычислением нечетких значений на выходах при работе сети (но не на основе вещественной, а на основе нечеткой арифметики). Для каждого сочетания категорий получается набор нечетких значений на выходах сети, и для класса с наибольшим значением записывается правило вида ifhen, где в правой части правила коэффициент уверенности принимает значение вычисленной нечеткой величины. Построения иерархии правил (по числу слоев нейросетевого классификатора) в [94] не делается. Правила в левой части содержат значения входных переменных, а в правой - выходных переменных нейросети. Упрощения полученного набора правил не предполагается, построение правил с альтернативами в правой части не делается (все вычисленные для каждой комбинации нечеткие значения на выходах отбрасываются за исключением наибольшей, а ведь можно интерпретировать эти нечеткие величины как вероятности классов). Практически аналогичный метод извлечения нечетких правил предложен в [98] - фаззификация и введение лингвистических категорий для входных сигналов сети, построение набора нечетких правил, выдающих по фаззифицированным входным сигналам ответ, близкий к ответу сети (требуемому выходному сигналу). Т.е. структура сети снова во внимание не принимается, фактически, можно обойтись просто обучающей зыборкой. Другие работы по извлечению нечетких правил и фаззификации входных переменных, рассматривающие и некоторые другие аспекты проблемы извлечения/встраивания нечетких знаний, представлены в [99-103]. В отличие от [88,95-97] и далее рассматриваемых в этом разделе работ, [94,98-103] не принимают во внимание природу входных сигналов сети (например, вид плотности распределения вероятности, которая может быть мультимодальной), и поэтому вводимые человеком лингвистические категории могут получать в большей степени искусственные границы.

Похожие диссертации на Извлечение знаний из таблиц данных при помощи обучаемых и упрощаемых искусственных нейронных сетей