Содержание к диссертации
Введение
1. Анализ предметной области и постановка задачи редукции баз знаний интеллектуальных систем 14
1.1. Базы знаний интеллектуальных систем 14
1.1.1. Понятие, назначение и структура интеллектуальных систем 14
1.1.2. Формализация знаний в интеллектуальных системах 17
1.1.3. Формальные модели представления знаний 18
1.1.4. Обнаружение знаний в базах данных 23
1.2. Анализ методов автоматической генерации нечетких правил в интеллектуальных системах 25
1.2.1. Генерация нечетких правил на основе метода корреляционного анализа 26
1.2.2. Использование метода «Правило для каждой точки» и интерполяции по точкам 28
1.2.3. Метод кусочной интерполяции для генерации нечетких правил .29
1.2.4. Формирование базы знаний с использованием генетических алгоритмов 30
1.2.5. Формирование базы знаний с использованием нечеткой нейронной сети ANFIS 31
1.2.6. Метод обучения нечетких систем на основе алгоритма муравьиных колоний 33
1.2.7. Метод обучения нечетких систем на основе алгоритма пчелиных колоний 34
1.2.8. Сравнительная характеристика методов автоматической генерации нечетких правил 35
1.3. Анализ подходов к оптимизации баз знаний интеллектуальных систем 36
1.3.1. Таксономия знаний в экспертных системах 36
1.3.2. Оптимизация баз знаний на основе генетического алгоритма 37
1.3.3. Редукция баз знаний на основе мультиагентного подхода 39
1.3.4. Редукция вырожденных и незначимых правил в базах знаний интеллектуальных систем 42
1.3.5. Структуризация правил базы знаний 44
1.3.6. Сравнительная характеристика подходов к редукции баз знаний...
1.4. Постановка задачи редукции автоматически сформированных нечетких правил 47
1.5. Выводы 47
2. Разработка математического обеспечения для редукции нечетких правил 49
2.1. Разработка кластерно-генетического метода редукции баз знаний 49
2.1.1. Описание разработанного кластерно-генетического метода редукции нечетких правил в базах знаний 49
2.1.2. Методика оценки классифицирующей способности редуцированных баз знаний 50
2.2. Разработка алгоритма кластеризации нечетких правил 52
2.2.1. Анализ существующих подходов к кластеризации данных 52
2.2.2. Описание разработанного алгоритма кластеризации нечетких правил в базах знаний 56
2.3. Разработка метода идентификации значений параметров функций
принадлежности в логическом центре кластера 60
2.3.1. Постановка задачи идентификации значений параметров функций принадлежности 60
2.3.2. Численный метод идентификации параметров функций принадлежности 61
2.3.3. Соответствие координат логического центра кластера дефаззифицированным значениям получаемых функций принадлежности 63
2.4. Разработка генетического алгоритма редукции нечетких правил в базах знаний интеллектуальных систем 66
2.4.1. Описание разработанного генетического алгоритма 66
2.4.2. Сходимость генетического алгоритма
2.5. Особенности разработанных алгоритмов редукции 72
2.6. Выводы 72
3. Программный комплекс редукции нечетких правил 74
3.1. Разработка программного комплекса 74
3.1.1. Назначение программного комплекса 74
3.1.2. Средства разработки программного комплекса 75
3.1.3. Структура и состав программного комплекса 76
3.1.4. Пример функционирования программного комплекса 81
3.2. Численно-параметрические исследования и оценка эффективности разработанного математического обеспечения 87
3.2.1. Формирование базы знаний для исследований 87
3.2.2. Исследования и оценка эффективности алгоритма кластеризации нечетких правил 90
3.2.3. Исследования и оценка эффективности генетического алгоритма минимизации числа правил 93
3.2.4. Оценка классифицирующей способности и скорости логического вывода редуцированных баз знаний 94
3.3. Выводы 96
4. Решение практических задач редукции баз знаний интеллектуальных систем 97
4.1. Редукция базы знаний системы оценки кредитоспособности физических лиц 97
4.1.1. Задача определения кредитоспособности физических лиц 97
4.1.2. Описание исследуемой базы знаний 98
4.1.3. Процесс редукции базы знаний 100
4.1.4. Оценка классифицирующей способности редуцированной базы знаний 102
4.1.5. Сравнение полученных результатов с результатами других авторов 103
4.2. Редукция базы знаний системы фильтрации нежелательных почтовых сообщений 104
4.2.1. Задача фильтрации нежелательных почтовых сообщений 104
4.2.2. Описание исследуемой базы знаний 105
4.2.3. Процесс редукции базы знаний 107
4.2.4. Оценка классифицирующей способности редуцированной базы знаний 109
4.2.5. Сравнение полученных результатов с результатами других авторов ПО
4.3. Выводы 111
Заключение 113
Список литературы
- Анализ методов автоматической генерации нечетких правил в интеллектуальных системах
- Методика оценки классифицирующей способности редуцированных баз знаний
- Описание разработанного генетического алгоритма
- Сравнение полученных результатов с результатами других авторов
Анализ методов автоматической генерации нечетких правил в интеллектуальных системах
Наибольшая эффективность коррекляционного анализа возникает при формировании функций принадлежности пользователем, а формирование правил принятия решений средствами RuleMaker. Значения обучающей выборки распределяются по имеющимся различным комбинациям функций принадлежности входных параметров. Правила создаются на основе комбинации термов, которые описывают большее количество значений обучающей выборки. Консеквент правила определяется как среднее арифметическое значений, которые описывает данное правило. Совокупность созданных правил и составляют базу знаний интеллектуальной системы.
В системе RuleMaker есть два похожих метода формирования базы знаний: «Правило для каждой точки» и «Интерполяция по точкам». Данные методы предназначены для формирования нечетких правил баз знаний из исходных данных, в которой объем выборки не превышает 1000 записей [64]. Данное ограничение заложено в систему RuleMaker.
При использовании метода «Правило для каждой точки» для каждого значения входного параметра и выходного значения создается свой отдельный терм. Однако для слишком близко расположенных друг к другу точек может использоваться один терм. При этом система не создает более 50 градаций для каждого параметра [144].
RuleMaker создает треугольные функции принадлежности, которые обладают свойствами унимодальности, согласованности и нормальности [144]. При этом у пользователя нет возможности задавать собственные функции принадлежности.
В данном методе используется такой алгоритм логического вывода, в котором активным может быть только одно правило с наибольшим значением функции принадлежности. Таким образом, система нечеткого логического вывода точно воспроизводит значения из обучающей выборки: If х, is А[ and х2 is А\ and ...and хп is Aln then у is bt,i = \,k, (1.1) где п - количество входных параметров к - размер обучающей выборки В случаях, когда в исходных данных отсутствуют значения переменных для некоторых интервалов их изменения, применение метода «правило для каждой точки» может привести к построению вырожденной системы правил, что может повлиять на работу управляющей системы. Метод интерполяции по точкам позволяет избежать вырожденности системы правил даже в случае, когда в записях перечислены не все возможные комбинации значений. Это достигается за счет изменения формы функции принадлежности. При использовании метода интерполяции по точкам функция принадлежности может иметь трапециевидную форму или иметь произвольную форму. Это исключает вырожденности правил, но снижает точность аппроксимации.
Метод кусочной интерполяции является основным методом в системе RuleMaker, однако позволяет работать только с одним или двумя входными параметрами. Метод хорошо работает для достаточно гладких функций и в этом случае он дает высокие результаты [64].
При создании базы знаний с одним входным параметром функции принадлежности формируется достаточно сложной формы, поэтому возникают сложности в его интерпретации. Система правил, которая создается при этом, содержит только два правила.
При создании базы знаний с двумя входными параметрами для первого входного параметра создается функция принадлежности сложной формы по экспериментальным данным, а для второго входного параметра создаются отдельные функции принадлежности треугольной формы.
Все вышеописанные методы используются при малом объеме экспериментальных данных и имеют низкую точность аппроксимации. 1.2.4. Формирование базы знаний с использованием генетических алгоритмов
При формировании баз знаний интеллектуальных систем широко применяются генетические алгоритмы [60, 82, 126, 128, 129, 135]. В общем случае процесс построения базы знаний делится на 2 этапа: структурная идентифти-фикация и параметрическая адаптация. На первом этапе генерируются базы правил интеллектуальной системы, а на втором - уточняются функции принадлежности параметров, входящих в базу правил принятия решений.
В [82] для выполнения структурной идентификации используется классификационный алгоритм, который заключается в следующем. Пусть имеется обучающая выборка. Каждая переменная системы и, имеет свое терм-множество T(ut) = (tn,tj2,...,tiK ), которое кодируется в виде последовательных номеров tik =к — \,к = \,Кі. Для каждой переменной задается количество и границы лингвистических термов при работе классификационного алгоритма. Данные из обучающей выборки преобразуются в систему данных в соответствии с заданными границами лингвистических термов, таким образом, осуществляется переход от исходных данных к системе данных.
Генетический алгоритм применяется для параметрической адаптации. В [82] описана параметрическая оптимизация для трапециевидной функции. Она состоит в кодировании трапециевидной функции принадлежности в виде тройки параметров (c,pi,pr), где с - центр лингвистического терма, pi, рг - отрезки, отложенные влево и вправо от точки с соответственно, сумма которых равна длине верхнего основания (см. рис. 1.8).
Методика оценки классифицирующей способности редуцированных баз знаний
Таким образом, редукции исходной базы знаний с помощью разработанного алгоритма кластеризации входящих в нее нечетких правил позволяет получить промежуточную базу знаний. При этом возникает необходимость решения задачи идентификации значений параметров функций принадлежности для новых правил, соответствующих центрам кластеров.
В полученном кластерном решении центры кластеров могут, как совпадать с имеющимися правилами в базе знаний (физические центры кластера), так и не совпадать с ними (логические центры кластеров). В последнем случае возникает задача идентификации значений параметров функций принадлежности нового нечеткого правила, соответствующего данной точке.
Рассмотрим постановку задачи идентификации значений параметров функций принадлежности в логических центрах кластеров более подробно. Каждая функция принадлежности каждой входной переменной представляется в виде одной координаты точки в и-мерном пространстве (см. рис. 2.4).
Представление нечетких правил в виде точек Как видно из данного рисунка, количество координат соответствует количеству входных параметров. Необходимо идентифицировать значения функций принадлежности для каждого входного параметра правила, соответствующего координате логического центра кластера (см. рис. 2.5).
Идентификация значений параметров функций принадлежности Таким образом, задача сводится к нахождению значений параметров функций принадлежности для каждого входного параметра каждого логического центра кластера и формирования нового правила, включающие новые функции принадлежности.
Существует большое количество различных форм функций принадлежности нечетких множеств [68]: треугольные, трапециевидные, гауссовы, двойные гауссовы, колоколообразные и другие. Однако в настоящее время в системах нечеткого моделирования в целях высокой интерпретации, удобства использования и возможностью получения результатов с требуемой точно стью, наиболее широкое распространение получили треугольная и трапециевидная функции принадлежности (см. рис. 2.6).
Треугольная функция принадлежности (см. рис. 2.6, а) однозначно определяется тремя параметрами (1,с,г), где / - левое основание ФП, с - центр ФП (мода), г - правое основание ФП. Ее значение в точке х вычисляется по следующей формуле:
Для трапециевидной ФП (см. рис. 2.6, б) необходимо задать значения четырех ее параметров (/, ch с2, г), где / - левое основание ФП, с/ - левая граница моды, с2 - правая граница моды, г - правое основание ФП. Значение данной функции принадлежности в точке х вычисляется согласно выражению: X г Рассмотрим разработанный численный метод идентификации значений параметров функций принадлежности в логических центрах кластеров Метод средних координат для треугольной функции принадлежности.
Для треугольной функции принадлежности необходимо получить параметры функций принадлежности, соответствующих каждой /-ой точки из N точек кластера (I ,с ,r ),i = l,N, j = \,п и для каждойу -й координаты логического центра кластера вычислить значения параметров функции принадлежности по следующим формулам: 1 /V IV Л 1лЦ= Т.1Ч СлЦ=-ЪСУ Глц= 1/у (2Л0) Для трапециевидной функции принадлежности необходимо получить параметры функций принадлежности, соответствующих каждой /-ой точки из N точек кластера (llJ,cUj,c2lJ,rlJ),i-l,N,j-l,n и для каждой j -й координаты логического центра кластера вычислить значения параметров функции принадлежности по следующим формулам: I N і N і N л N 1ЛЦ=—/ 1ІГ С\лц=—А_ІСь/ С2пц —1_ІС2іг Гпц=—/-іГц- (2-11) Таким образом, полученные значения параметров функций принадлежности будут описывать каждый входной параметр нового правила. Консеквент нового правила будет равняться значению рассматриваемого класса решений.
Следует отметить, что предложенный метод идентификации значений параметров функций принадлежности применим только для кусочно-линейных функций.
Сформулируем и докажем утверждение для получения оценки эффективности разработанного метода идентификации значений параметров функций принадлежности (метода средних координат). Утверждение. Дефаззифицированные значения сформированных на основе метода средних координат функций принадлежности однозначно соответствуют координатам логического центра кластера.
Приведем доказательство данного утверждения на примере треугольной функции принадлежности, полагая, что применительно к трапециевидной функции, доказательство является аналогичным.
Как известно, треугольную функцию принадлежности можно задать тремя параметрами (1,с,г), где / - левое основание, с - центр, г - правое основание ФП. Ее значение в точке х вычисляется по следующей формуле:
Описание разработанного генетического алгоритма
Основным компонентом программного комплекса является модуль редукции исходной базы знаний. В качестве дополнительного компонента реализован модуль оценки классифицирующей способности баз знаний для оценки исходной и редуцированных баз знаний. Программный комплекс имеет дружественный интерфейс для взаимодействия с экспертом на этапе редукции базы знаний интеллектуальной системы.
Модуль редукции исходной базы знаний включает в себя пять взаимосвязанных модулей, каждый из которых отвечает за отдельный этап редукции базы знаний интеллектуальной систем. На рисунке 3.3 представлена структурная схема данного компонента программного комплекса.
В первом модуле производится загрузка исходной базы знании и представление нечетких правил в виде точек в «-мерном пространстве. Данное представление осуществляется с использованием процедуры дефаззификации нечетких входных параметров и дальнейшим нормированием полученных значений. Полученные точки в «-мерном пространстве делятся на подмножества по классам решений. Во втором модуле производится кластеризация точек для каждого класса решений. В результате кластеризации определяются логические или физические центры кластеров. Полученные центры кластеров служат для формирования промежуточной базы знаний. В процессе кластеризации подбирается оптимальное количество кластеров. Критерием выбора служит оценка классифицирующей способности полученных при кластеризации баз знаний.
Структура модуля редукции исходной базы знаний В третьем модуле для случаев, когда полученные центры кластеров не совпадают с существующими правилами исходной базы знаний, то есть, найден логический центр кластера, идентифицируются значения функций принадлежности для каждого входного параметра и формируется новое правило, описывающее данный класс решений. Таким образом, третий модуль направлен на создание новых правил, которые включаются в промежуточную базу знаний.
Четвертый модуль предназначен для кодирования промежуточной базы знаний в виде хромосомы и создание начальной популяции для работы генетического алгоритма. Начальная популяция формируется из баз знаний, которая состоит преимущественно из единиц, то есть активных правил и в процессе работы генетического алгоритма правила удаляются.
В пятом модуле реализован генетический алгоритм минимизации числа правил промежуточной базы знаний, которые описывают полученные центры кластеров во втором модуле.
Дополнительный компонент разработанного программного комплекса включает в себя два модуля и отвечает за оценку классифицирующей способности исходной и редуцированных баз знаний, а также за работу методов и алгоритмов редукции баз знаний. На рисунке 3.4 представлена структурная схема данного компонента программного комплекса.
Первый модуль предназначен для работы с экспериментальными данными, и определяет, какие данные необходимо использовать для выполнения логического вывода. При оценке классифицирующей способности исходной базы знаний при отсутствии отдельного блока тестовых данных используются все экспериментальные данные. В процессе работы кластеризации нечетких правил и генетическом алгоритме минимизации числа кластеров также используется весь набор экспериментальных данных, а при оценке классифицирующей способности редуцированных баз знаний выполняется 10-кратная 10-блочная кросс-валидация на всем наборе экспериментальных данных. Второй модуль отвечает за выполнение логического вывода, заданного пользовательскими настройками, и используется на этапах оценки классифицирующей способности исходной и редуцированных баз знаний. Кроме того данный модуль применяется в процессе кластеризации нечетких правил при определении лучшего кластерного решения и при определении значения фит-несс-функции при работе генетического алгоритма.
Блок-схема алгоритма работы программного комплекса Как видно из данного рисунка, в алгоритме изначально осуществляется оценка исходной базы знаний, далее выполняется редукция базы знаний на основе кластерно-генетического метода на всех имеющихся экспериментальных данных и завершающим этапом определяется точность классифицирующей способности полученной модели.
В качестве демонстрации работы программного комплекса опишем его функционирование на примере решения задачи классификации ирисов Фишера, исходные данные которой можно получить из общедоступного известного набора данных [122]. Данная задача используется для решения различных ме тодов машинного обучения и интеллектуального анализа данных. Задача состоит в отнесении ириса к одному из трех классов [57]: 1) Iris Setosa; 2) Iris Versicolor; 3) Iris Virginica. При классификации используются следующие признаки цветков: Х] -длина чашелистика; %2 - ширина чашелистика; х3 - длина лепестка; х4 - ширина лепестка. Исходные данные для классификации ирисов записаны в файле iris.dat, входящем в Fuzzy Logic Toolbox. Файл содержит 150 строк, каждая из которых описывает один ирис. Информация о цветке представлена пятеркой чисел - первые четыре числа соответствуют значениям признаков, а пятое -классу ириса.
Получение исходной базы знаний для выполнения редукции нечетких правил осуществляется с помощью нечеткой нейронной сети ANFIS. Инструменты для построения включены в состав Fuzzy Logic Toolbox среды моделирования MATLAB. При создании базы знаний с помощью нечеткой нейронной сети ANFIS вводятся такие параметры как тип функций принадлежности входных параметров, задается количество градаций для каждого параметра, определяется метод обучения и количество эпох. Также загружается обучающая выборка. Рассмотрим кратко построение базы знаний в системе MATLAB.
Разделим случайным образом всю выборку данных на 2 множества: обучающую (9/10 = 135 записей) и тестовую (1/10 = 15 записей), в каждой из которых будет равномерное распределение описываемых классов. При формировании нечетких правил использовалась треугольная функция принадлежности, а каждый входной параметр делился на 3 класса [52]. Таким образом, сформированная база знаний содержала 34=81 правило.
Сравнение полученных результатов с результатами других авторов
На следующем этапе редукции базы знаний выполняется генетический алгоритм минимизации числа сформированных кластеров. Для запуска генетического алгоритма необходимо нажать на кнопку «Минимизация правил», в результате работы которой система выдаст редуцированную (искомую) базу знаний, время логического вывода и возможность ее сохранения. Для оценки редуцированной базы знаний необходимо нажать на кнопку «Кросс-валидация» в блоке работы генетического алгоритма и получить значение точности классифицирующей способности построенной модели.
В предыдущем подразделе был описан процесс редукции базы знаний интеллектуальной системы фильтрации электронных почтовых сообщений. В таблице 4.4 представлены сравнительные характеристики исходной и редуцированных баз знаний.
Точность классифицирующей способности базы знаний определяется количеством правильно распознанных объектов. Выделяют два вида ошибок классификации [8]: ошибки 1-го и 2-го рода. В задаче спам-классификации ошибка 1-го рода возникает в случае, когда письмо классифицируется как «спам», но является легитимным сообщением. Ошибка 2-го рода возникает, когда письмо классифицируется как «не спам», но является при этом нежелательным почтовым сообщением.
Как видно из представленной таблицы, редуцированная база знаний обладает более высокой точностью классифицирующей способности по сравнению с исходной базой знаний. Таким образом, можно сделать вывод, что полученная модель является эффективной и может быть использована для фильтрации электронных почтовых сообщений.
Разработанный программный комплекс редукции нечетких правил базы знаний не является интеллектуальной системой, хотя и имеет модуль нечеткого логического вывода, что позволяет использовать его для получения результата классификации.
Разработанное математическое и программное обеспечение прошло успешную апробацию на рабочих станциях информационных систем Центра информационных технологий, связи и защиты информации Министерства внутренних дел по Республике Татарстан. В результате редукции базы знаний интеллектуальной системы классифицирующая способность базы знаний составила 0.91 со скоростью принятия решения 0.02 с, что на 5.8% выше классифицирующей способности исходной базы знаний, а также на 84.6% быстрее.
Для получения результатов редукции нечетких правил в базах знаний интеллектуальных систем с применением подходов других авторов были разработаны скрипты в программной среде MATLAB. В таблице 4.5. представлена сравнительная характеристика редуцированных баз знаний фильтрации электронных почтовых сообщений, полученных при работе кластерно-генетического метода и существующих подходов к редукции баз знаний.
Редукция БЗ на основе муль-тиагентного подхода 689(+45.7%) 0.83 (-8.8%) 0.03 (+50%) Редукция правил в БЗ интеллектуальных систем 849(+79.5%) 0.86 (-5.5%) 0.04 (+100%) Структуризация правил БЗ 915(+93.4%) 0.86 (-5.5%) 0.04 (+100%) Сравнение результатов работы методов редукции баз знаний показал, что разработанный кластерно-генетический метод превосходит существующие подходы как по количеству нечетких правил, составляющих базу знаний, так и по классифицирующей способности базы знаний. Низкое количество нечетких правил в редуцированной базе знаний позволило увеличить интерпретируемость для экспертов, а также повысить скорость логического вывода.
Разработанный на базе описанных в диссертации методов и алгоритмов программный комплекс позволяет редуцировать нечеткие правила в базах знаний интеллектуальных систем. Программа имеет дружественный и понятный интерфейс и является эффективным инструментом в руках эксперта для редукции нечетко-продукционных правил.
В банковской сфере решена задача редукции базы знаний интеллектуальной скоринговой системы оценки кредитоспособности физических лиц. Результаты экспериментов на основе редуцированной базы знаний, состоящей из 854 правил, указывают на ее высокую классифицирующую способность. Редукция нечетких правил базы знаний интеллектуальной скоринговой системы оценки кредитоспособности физических лиц позволила повысить точность и скорость принятия скоринговых решений, улучшить интерпретируемость базы знаний и снизить нагрузку на специалистов по сопровождению и практическому использованияю интеллектуальной скоринговой системы.
В сфере информационной безопасности решена задача редукции базы знаний для спам-классификации. Результаты экспериментов редуцированной базы знаний, состоящей из 473 правил, указывают на высокую классифицирующую способность. Практическое использование редукции нечетких правил базы знаний интеллектуальной системы предварительного выявления электронных писем несанкционированной массовой рассылки на рабочих станциях информационных систем Управления связи, специальной техники и автоматизации Министерства внутренних дел по Республике позволило повысить точность и скорость фильтрации электронных почтовых сообщений, улучшить интерпретируемость базы знаний, сократить и снизить нагрузку на специалистов при анализе входящее электронное корреспонденции.
Функциональные возможности программного комплекса позволяют производить редукцию баз знаний автоматическими методами и алгоритмами. Это позволяет получать редуцированные базы знаний, которые повышают точность решаемых задач и интерпретируемость базы знаний.