Содержание к диссертации
Введение
Глава 1. Анализ методов обработки данных, полученных при оценивании качественных характеристик объектов
1.1.Статистические методы обработки данных, полученных при оценивании качественных характеристик объектов
1.2. Элементы теории нечетких множеств 13
1.3. Нечеткие отношения и элементы нечеткого кластерного анализа 22
1.4. Методы обработки данных оценивания качественных характеристик объектов на основе теории нечетких множеств
1.5.Выводы по главе 1 31
Глава 2. Метод формализации нечетких данных и модели их обработки 32
2.1. Метод формализации элементов шкал, используемых для оценивания качественных характеристик объекта
2.2. Модель соответствия балльной и лингвистической шкал 36
2.3. Модель многокритериального рейтингового оценивания объектов 38
2.4. Модель нечеткого кластерного анализа для определения похожих объектов по ряду качественных характеристик
2.5. Модель нечеткого кластерного анализа для формирования экспертных групп
2.6. Выводы по главе 2 47
Глава 3. Автоматизированная система обработки данных оценивания качественных характеристик объектов
3.1. Ввод данных вручную 49
3.1.1. Построение рейтинговых оценок 49
3.1.2. Кластеризация экспертов 51
3.1.3. Кластеризация объектов 53
3.2. Ввод данных из файла 56
3.2.1. Внешний вид программы 56
3.2.2. Форматы входных файлов 57
3.2.3. Форматы выходных файлов 62
3.3. Формальная постановка задач для каждой модели 67
3.3.1. Построение рейтинговых оценок 67
3.3.2. Кластеризация экспертов 68
3.3.3. Кластеризация объектов 70
3.3.4. Формализация некоторых понятий в моделях 72
3.4 Выводы по главе 3 75
Глава 4. Примеры практического применения разработанной автоматизированной системы обработки информации
4.1. Определение рейтинговых оценок абитуриентов 76
4.2. Определение рейтинговых оценок программных средств обеспечения финансовой деятельности фирм
4.3. Формирование предметных комиссий по приему вступительных экзаменов в вуз
4.4. Рациональное распределение абитуриентов по учебным группам 88
4.5 Выводы по главе 4 92
Заключение 93
Список использованных источников 95
- Нечеткие отношения и элементы нечеткого кластерного анализа
- Модель многокритериального рейтингового оценивания объектов
- Форматы выходных файлов
- Определение рейтинговых оценок абитуриентов
Введение к работе
При оценивании качественных характеристик объектов эксперты, как правило, используют слова профессионального (естественного) языка. Например, завершенность программного продукта по мнению эксперта может быть полной, интерфейс вполне удобным, знания студента хорошими и т. д. Использование экспертами слов естественного языка вносит нечеткость в итоговые данные и является причиной сложности их обработки.
Большинство традиционно применяемых математических моделей для обработки данных оценивания качественных характеристик объектов опираются на методы теории вероятностей и математической статистики [1-6]. При этом нечисловым данным в соответствие ставятся балльные оценки, которые априори считаются значениями случайных величин [7-20]. После этого применяются методы корреляционного анализа [7], критерии согласия [8], строятся рейтинговые системы оценивания объектов [9-14] и мастерства экспертов [15-17]. Для прогноза значений качественных характеристик объектов традиционно применяются классические регрессионные модели, а в качестве исходной информации выступают балльные оценки, поставленные в соответствие лингвистическим значениям этих характеристик [7, 21]. При построении этих моделей возникают те же некорректности, что и при построении рейтинговых систем оценивания объектов, поскольку используемые оценки являются элементами порядковых шкал, в которых некорректны все арифметические операции [22].
Как показывает практика, для обработки данных, которые являются значениями качественных характеристик, некорректно применять модели, разработанные для обработки физических величин. Это может приводить к неустойчивым и неадекватным действительности конечным результатам [23-29].
В последние годы исследования ряда российских и зарубежных ученых были направлены на устранение подобных проблем и обеспечение возможности обработки трудноформализуемых (нечетких) данных с учетом пронизывающей их неопределенности неслучайного характера.
Основополагающую роль в этих исследованиях сыграл современный математический аппарат теории нечетких множеств. Фундаментом для исследований, проведенных в настоящей диссертации, являются работы ряда авторов, в частности, Аверкина А.Н., Алексеева А.В., Рыжова А.П., Домрачева В.Г., Полещук О.М.
В последние годы на основе этих работ разработаны методы и модели обработки нечетких данных [23-25, 30-37], которые на практике доказали свою жизнеспособность и эффективность, но вместе с тем поставили новые задачи, требующие решения.
Прежде, чем применять аппарат теории нечетких множеств, для обработки полученных данных, эти данные необходимо формализовать, то есть представить их в таком виде, который позволил бы применять этот аппарат. Известные методы формализации данных, полученных при оценивании качественных характеристик объектов, обладают существенным недостатком, состоящим в том, что они не работают в условиях ограниченной информации [30-37]. Модели, разработанные в работах [33-34], позволяют строить рейтинговые системы оценивания объектов по ряду качественных характеристик. Но поскольку эти модели опираются на известные методы формализации нечетких данных, обладающие упомянутом выше недостатком, то для их использования тоже возникают ограничения. Практически отсутствуют модели для кластерного анализа нечетких данных, полученных при оценивании качественных характеристик объектов [31, 36-37].
Все вышесказанное в совокупности с возрастанием сложности и ответственности современных задач обработки нечетких данных подтверждает актуальность диссертационной работы.
Цель и задачи диссертации. Целью диссертации является разработка метода, моделей и алгоритмов обработки данных на основе нечеткого кластерного анализа и рейтингового оценивания.
Для достижения поставленной цели были сформулированы и решены следующие основные задачи:
1. Разработка метода формализации элементов шкал, применяемых для
оценивания качественных характеристик объектов.
2. Построение моделей нечеткого кластерного анализа данных,
полученных при оценивании качественных характеристик объектов.
Построение модели многокритериального рейтингового оценивания объектов.
Разработка и программная реализация автоматизированной системы обработки данных на основе нечеткого кластерного анализа и рейтингового оценивания.
Методы исследования. Реализация поставленных задач осуществлялась с использованием методов теории нечетких множеств, математического программирования и теории автоматизированного проектирования.
На защиту выносятся.
Метод формализации элементов шкал, применяемых для оценивания качественных характеристик объектов, который работает в условиях ограниченной информации.
Модель многокритериального рейтингового оценивания объектов на основе разработанного метода.
3. Две модели нечеткого кластерного анализа данных оценивания
качественных характеристик объектов, которые позволяют получать
результаты при заданном уровне доверия.
Научная новизна диссертационной работы определяется следующими результатами.
1. На основе теории нечетких множеств разработан метод
универсального представления элементов шкал, используемых для
оценивания качественных характеристик объектов.
2. Разработана модель многокритериального рейтингового оценивания
объектов, позволяющая получать нечеткие, точечные, интервальные оценки
и оценки проявления интенсивности оцениваемых у объектов характеристик.
3. Построены две модели нечеткого кластерного анализа данных,
позволяющие получать результаты при заданном уровне доверия.
Практическое значение результатов работы.
Исследования, представленные в диссертации, являются результатами научных работ: «Разработка и программная реализация методов принятия решений на основе экспертных оценок в проблемных областях» (грант 04-07-90131 РФФИ) и «Разработка комплекса методов, моделей и экспертных систем создания, поддержки функционирования и оценки качества образовательных информационных ресурсов» (грант программы Минобрнауки «Развитие научного потенциала высшей школы 2006-2008 г.). Они нашли отражение в отчетах, где автор является исполнителем отдельных разделов.
Практическую ценность представляет автоматизированная система обработки данных, полученных при оценивании качественных характеристик объектов, на основе нечеткого кластерного анализа и рейтингового оценивания.
Разработанные в диссертации метод, модели и автоматизированная система могут быть использованы при обработке данных технических областей с активным участием экспертов, что позволит получать устойчивые конечные результаты и принимать обоснованные управляющие решения.
Разработанная автоматизированная система была апробирована на данных оценивания программных средств автоматизации финансовой деятельности фирм и данных образовательного процесса. При этом были получены устойчивые рейтинговые оценки программных средств и
обучающихся, а также осуществлен кластерный анализ полученных данных при заданном уровне доверия.
Обеспечивается возможность дальнейшего развития практических приложений на основе полученных в диссертации результатов и возможность создания новых инструментальных средств.
Достоверность полученных научных результатов подтверждена корректностью использованного математического аппарата, результатами практических применений и положительными результатами их обсуждения на международных и российских научных конференциях и симпозиумах.
В соответствие с выше изложенным, диссертация построена следующим образом.
Первая глава посвящена анализу методов обработки данных, полученных при оценивании качественных характеристик объектов, и постановке решаемых в диссертации задач. Определена причина возникновения неопределенности нечеткого характера в данных оценивания качественных характеристик объектов и сложности их обработки. Изложены необходимые сведения из теории нечетких множеств. Критически проанализированы известные методы обработки данных оценивания качественных характеристик объектов.
Проведенный в главе анализ позволил сделать вывод об актуальности развития этих методов и сформулировать постановки задач исследования.
Во второй главе разработан метод формализации нечетких данных оценивания качественных характеристик объектов. Этот метод, в отличие от известных методов, работает в условиях неполной информации, он инвариантен относительно последовательности построения функций принадлежности элементов шкал, используемых для оценивания качественных характеристик. На основе этого метода разработана модель соответствия балльной и лингвистической шкал. Разработана модель многокритериального рейтингового оценивания объектов, которая позволяет находить нечеткие, точечные, интервальные рейтинговые оценки и
присваивать квалификационные уровни с определенным уровнем возможности. Разработана модель нечеткого кластерного анализа, которая позволяет разбивать объекты с качественными характеристиками на кластеры в зависимости от значений этих характеристик. Построена модель нечеткого кластерного анализа, которая позволяет формировать экспертные комиссии, опираясь на их индивидуальные критерии.
Третья глава посвящена описанию автоматизированной системы обработки данных оценивания качественных характеристик объектов в основе которой лежат, разработанные во второй главе метод и модели.
В четвертой главе изложены примеры практического применения разработанной в диссертации автоматизированной системы. В качестве исходной информации используются данные образовательного процесса и данные оценивания программных средств обеспечения финансовой деятельности фирм. Используя разработанную в диссертации модель нечеткого кластерного анализа, сформирована комиссия по математике по приему экзаменов. Опираясь на индивидуальные характеристики абитуриентов, произведено их рациональное распределение по учебным группам. Определены рейтинговые оценки абитуриентов по результатам собеседования и трех вступительных экзаменов и определены рейтинговые оценки программных средств финансовой деятельности фирм.
Нечеткие отношения и элементы нечеткого кластерного анализа
Одним из основных понятий нечеткого кластерного анализа является понятие нечеткого отношения. Нечеткие отношения играют существенную роль в задачах, решения которых опираются на методы теории нечетких множеств, и в задачах, решения которых опираются на традиционные методы и теорию четких отношений [23]. Как правило, аппарат теории четких отношений используется при качественном анализе взаимосвязей между объектами исследуемой системы, когда взаимосвязи носят дихотомический характер и, исходя из этого, могут быть интерпретированы в терминах «связь отсутствует», «связь присутствует», либо когда методы количественного анализа взаимосвязей по каким-либо причинам неприменимы, и взаимосвязи искусственно приводятся к дихотомическому виду. Например, когда величина связи между объектами принимает значения из ранговой шкалы, выбор порога на силу связи позволяет преобразовать связь к требуемому виду. Однако, подобный подход, позволяя проводить качественный анализ систем, приводит к потере информации о силе связей между объектами, либо требует проведения вычислений при разных порогах на силу связей. Этого недостатка на основе анализа лишены методы анализа данных, основанные на теории нечетких отношений, которые позволяют проводить качественный анализ систем с учетом различия в силе связей между объектами системы.
Нечетким п-арным отношением R между множествами Х1,Х2,...,Хп называется нечеткое множество R такое, что \/(х1,х2,...,хп)еХ1 хХ2 х...хХп pR(xl,x2,...,xn)e [0,l], Хх = { ), 2 = {х2},...,Хп = {хп} - обычные множества.
Нечетким бинарным отношением R между множествами X,Y называется нечеткое множество R такое, что У(х,у)е X xY pR(x,y)e [0,\],Х = {x},Y = {у} - обычные множества.
Если множества X,Y конечны X = {xx,x2,...,xn},Y = \ух,у2,...,ут), то
нечеткое бинарное отношение R может быть задано с помощью его матрицы, строкам и столбцам которой ставятся в соответствие элементы множеств X,Y, а на пересечении /-ой строки и у-го столбца помещается элемент nR[jct,y ). Таким образом
Нечетким бинарным отношением R на множестве X называется нечеткое множество R такое, что \/(х,у)е X х X fjR(x,y)e [0,l].
Пусть /?, - нечеткое бинарное отношение между множествами X, Y, а /?2 - нечеткое бинарное отношение между множествами y,Z.
Композицией нечетких отношений R\,R2 называется нечеткое множество Я, о R2 такое, что для \/х єХ,Уу е К, Vz є Z , о/г ( ,z) = v(/ (.r,.y)A/ (y,z)), где л и v- соответственно операторы из класса треугольных норм и треугольных конорм.
Нечеткое бинарное отношение R называется рефчексивным, если pR(x,x) = \,Ухе X.
Нечеткое бинарное отношение R называется симметричным, если MR (х,у) = MR (у, 4 Vxr, у е X.
Одно из важных свойств нечетких бинарных отношений состоит в том, что они могут быть представлены в виде совокупности обычных бинарных отношений, упорядоченных по включению и представляющих собой иерархическую совокупность отношений [31]. Разложение нечетких бинарных отношений на совокупность обычных бинарных отношений основано на понятии or-уровня нечеткого бинарного отношения.
Модель многокритериального рейтингового оценивания объектов
Рейтинговые системы оценивания объектов по ряду качественных характеристик применяются достаточно часто. Например, программные продукты оцениваются по таким качественным характеристикам, как завершенность, изучаемость, модифицируемость и т. д. Рейтинговые системы оценивания знаний, как правило, включаются в систему внутреннего показателя качества подготовки и применяется во многих вузах. Эти системы имеют цель снизить субъективизм, проявляющийся между преподавателями и студентами, а также устранить другие (возможно скрытые) факторы, мешающие объективно оценить уровень подготовки обучающихся. Говорить о том, что процедура рейтингового оценивания должна быть простой в плане вычислений, абсолютно неактуально в эпоху бурного развития информационных технологий. Поэтому на первый план выдвигаются проблемы разработки нового математического аппарата, способного строить адекватные модели и получать устойчивые конечные результаты.
Обычная процедура вычисления рейтинговых оценок объектов по ряду качественных характеристик состоит в том, что по определенным правилам производятся операции с балльными оценками, которые являются оценками интенсивности проявления у объектов этих качественных характеристик. Например, процедура определения рейтинговых оценок по результатам образовательной деятельности по разным предметам, как правило, состоит в том, что по некоторым правилам к оценкам «2», «3», «4», «5» применяются арифметические операции, как к обычным числам, опуская тот факт, что оценки выставляются в порядковой шкале. Даже если опустить этот факт, то все равно очевидно, что сумма оценок «3» и «5» по разным предметам совсем не то же самое, что сумма оценок «5» и «3» но этим же предметам. Сумма 8 у двух разных студентов не несет никакой информации относительно степени проявления знаний для получения оценок «3», «5» и «5», «3». Именно поэтому некоторыми вузами вводятся «сырые» баллы или интервальные оценки. И то, и другое - попытки создать более чувствительную шкалу, чем «2», «3», «4», «5». Очевидно, что если количество, например, оценок «5» по одному предмету больше количества оценок «5» по другому предмету, то средняя степень проявления знаний, соответствующих оценке «5» по первому предмету, меньше средней степени проявления знаний, соответствующих оценке «5» по второму предмету.
В настоящем разделе предлагается модель многокритериального рейтингового оценивания объектов с качественными характеристиками, которая опирается на метод формализации данных раздела 2.1 и устраняет недостатки традиционных рейтинговых моделей, основанных на операциях с балльными оценками.
Рассмотрим совокупность N объектов, у которых оценивается интенсивность проявления качественных характеристик X ,j = \,k [118 119].
Пусть Xlj,l = \,mJ - уровни вербальных шкал, применяемых для
оценивания соответственно характеристик X , у = 1Д. Уровни расположены в порядке возрастания интенсивности проявления этих характеристик.
Обозначим за a/,/ = l,m, j= \,к - относительные числа объектов рассматриваемой совокупности, отнесенных при оценивании характеристики
X;,j = \,k к уровню ,/ = 1,т;,у = 1Д, а/ =\,j = \,к. Опираясь на эти данные и метод раздела 2.1, построим к полных ортогональных семантических пространств с названиями X , j= \,к и терм-множествами X,, 1 = \,т;,] = \,к. Обозначим через / (х) функцию принадлежности нечеткого числа X,, соответствующего /-му терм ножеству у-го полного ортогонального семантического пространства, l = \,m}, j = \,k
Будем называть оценками объектов нечеткие числа X,, I = \,т}, j = \,k или их функции принадлежности //Д ), / = l,/w;, j = \,k. Обозначим за X" и ju"(x) = [anjVa"j2,a"I,a"R),n = \,N, j = \,k, оценку w-ro объекта в рамках признака X . Нечеткое число X" с функцией принадлежности ju"(x) равно
Назовем оценку En,n = \,N средней степенью интенсивности проявления характеристик Xrj = \,k у и-го объекта n = \,N. Область изменения En,n = \,N есть отрезок [0, 1]. Таким образом, метод позволяет определять количественные оценки проявлений нескольких качественных характеристик.
Будем считать, что по результатам оценивания всех характеристик объектам необходимо присвоить один из принятых квалификационных уровней D,,l = \,m. Уровни расположены в порядке возрастания их рейтинга. Построим полное ортогональное семантическое пространство с терм-множествами D,, 1 = \,т по методу раздела 2.1. В качестве необходимых для построения полного ортогонального семантического пространства параметров берутся априори заданные относительные содержания обучающихся (возможно, некой идеальной совокупности) в рамках каждого квалификационного уровня. Обозначим функции принадлежности нечетких чисел D,,l = \,m, соответствующих терм-множествам D,,l = \,m соответственно за Т],(х),1 = \,т. Чтобы присвоить п-му объекту один из квалификационных уровней D,,l = \,m, нужно идентифицировать нечеткое число с функцией принадлежности /Jn(x),n = \,N с одним из терм-множеств с функциями принадлежности /j,(x),l = \,m. Для этого вычислим идентификационные показатели:
Форматы выходных файлов
1. Разработанные в диссертации и реализованные в автоматизированной системе метод и модели обработки данных оценивания качественных характеристик объектов применены к информации образовательного процесса.
2. Найдены рейтинговые оценки абитуриентов по результатам собеседования и тестирования по трем предметам. Определены рейтинговые оценки программных средств обеспечения финансовой деятельности фирм. Эти оценки позволили расширить информацию, полученную на основе традиционных рейтинговых оценок.
3. Опираясь на индивидуальные критерии экзаменаторов, сформирована предметная комиссия по математике.
4. На основе интеллектуальных и характерологических особенностей абитуриентов произведено их рациональное распределение по учебным группам, которое направлено на обеспечение условий для всестороннего развития каждой личности в процессе обучения.
Основные научные и практические результаты работы состоят в следующем.
1. На основе проведенного анализа обоснована актуальность разработки автоматизированной системы обработки данных, полученных при оценивании качественных характеристик объектов, а также метода, моделей и алгоритмов, реализующих этот подход.
2. Разработан метод формализации данных оценивания качественных характеристик объектов. Этот метод, в отличие от известных методов, работает в условиях неполной информации, он инвариантен относительно последовательности построения функций принадлежности элементов шкал, используемых для оценивания качественных характеристик.
3. Разработана модель многокритериального рейтингового оценивания объектов, которая позволяет находить нечеткие, точечные, интервальные рейтинговые оценки и присваивать квалификационные уровни с определенным уровнем возможности.
4. Разработана модель нечеткого кластерного анализа, которая позволяет определять группы похожих объектов по ряду качественных характеристик.
5. Разработана модель нечеткого кластерного анализа, которая позволяет формировать группы экспертов, опираясь на подобие их индивидуальных критериев.
6. Результаты диссертации реализованы в автоматизированной системе обработки данных, полученных при оценивании качественных характеристик объектов. Разработанная система использовалась для определения рейтинговых оценок программных средств и обучающихся, рационального распределения обучающихся по учебным группам, для формирования комиссий экзаменаторов.
Определение рейтинговых оценок абитуриентов
Многие годы в Московском государственном университете леса проводятся контрольные мероприятия, которые по форме проведения и содержанию предлагаемых материалов приближены к вступительным экзаменам. Цель проведения этих мероприятий двояка.
С одной стороны, будущие абитуриенты имеют возможность пополнить свои знания в рамках основных разделов школьной математики, русского языка, физики и английского языка. Опытные преподаватели во время занятий делают четкие акценты на специфике заданий экзаменационных работ и знакомят с предъявляемыми требованиями. Абитуриенты имеют возможность потренироваться на заданиях прошлых лет, разобраться с ошибками и за оставшееся до экзаменов время поднять уровень своих знаний.
С другой стороны, предметные и технические комиссии получают представление о структуре состава будущих абитуриентов (регионы проживания, семейное положение, тип учебного заведения, законченность или незаконченность среднего образования), об уровне их знаний, о конкурсе на различные факультеты и специальности и т. д.
Информация, которая поступает в период проведения контрольных мероприятий, максимально приближенных к реальным вступительным экзаменам, разнородна и динамична. Динамичность этой информации отчасти связана с тем, что в последние годы внедряются, как новые формы проведения экзаменов, так и шкалы для оценивания знаний. С целью совершенствования приема в вузы и создания равных условий при оценке знаний в большинстве российских регионов традиционно проводятся единые государственные экзамены. Эти мероприятия являются частью российской образовательной реформы и направлены на получение объективной и независимой информации об уровне знаний абитуриентов.
Определение рейтинговых оценок обучающихся достаточно распространено в образовательном процессе и играет существенную роль в задачах управления качеством обучения. Не менее важны рейтинговые оценки и при приеме в вузы, ибо по результатам экзаменов, которые сейчас чаще всего оцениваются в разных шкалах, и результатам различных собеседований необходимо принять адекватное решение, определяющее дальнейшую судьбу абитуриента.
Проблема при определении рейтинговых оценок возникает как раз в связи с разнородностью шкал и самих экзаменационных мероприятий, поэтому те схемы, которые традиционно опираются на обычные арифметические операции с полученными абитуриентами отдельными оценками, не всегда позволяют получить устойчивые результаты.
Рассмотрим задачу определения рейтинговых оценок абитуриентов по результатам трех экзаменов и собеседования на профессиональную пригодность. Экзаменационные работы по математике оценивались от нуля до десяти баллов, экзаменационные работы по физике и русскому языку оценивались в традиционной шкале «2», «3», «4», «5», а результаты собеседования были представлены в одном из следующих высказываний: «не годен», «условно годен», «годен». Будем считать, что все экзаменационные мероприятия имеют равные весовые коэффициенты. Результаты оценивания десяти абитуриентов занесены в таблицу 4.1. Результаты собеседования занесены в таблицу в сокращенном виде. В разделе 2.1 разработан метод представления качественной информации в виде нечетких множеств. На функции принадлежности нечетких множеств накладываются ограничения, которые были сформулированы в результате многолетних теоретических и практических исследований, как математиков, так и психологов. Суть этих ограничений направлена на то, чтобы смоделировать свойственную экспертному оценочному мышлению плавность и наличие эталонов. Результатом метода раздела 2.1 является определенный на отрезке [0,1] набор функций принадлежности нечетких множеств, каждая из которых соответствует элементу шкалы, применяемой во время соответствующего экзаменационного мероприятия.
Остановимся более подробно на методе определения рейтинговых оценок. Рассмотрим N абитуриентов, у которых оценивается интенсивность проявления знаний и навыков по предметам с названиями X ,j = \,k. Пусть
Xlj,l = \,mJ - уровни вербальных шкал, применяемые для оценивания Х;,] = \,к и расположенные в порядке возрастания интенсивности их проявления.