Содержание к диссертации
Введение
1. Разработка системного подхода к решению задач тестовых заданий 20
1.1. Обзор существующих методов и моделей тестирования знаний 20
1.2. Задача тестирования 27
1.3. Задача выбора критерия качества обучения 33
1.3.1. Критерии оценки тестовых заданий 34
1.3.1.1. Диагностические состояния и проверки 34
1.3.1.2. Оценка уровня знаний с использованием двоичных оценок 35
1.3.2. Нечеткие критерии оценки знаний 37
1.4. Система тестирования знаний 41
1.4.1. Образовательная система 42
1.4.2. Виды тестов и требования к тестированию 45
1.5. Применение тестов 48
1.5.1. Применение тестов в системе образования 48
1.5.2. Применение тестов в задачах управления персоналом
1.6. Модели оценки результатов тестирования 53
1.7. Обоснование предмета диссертационного исследования 59
1.8 Выводы 63
2. Разработка моделей для исследования тестов и результатов тестирования 66
2.1. Сравнительная оценка количественных и качественных критериев тестов 66
2.2. Модель эвристического оценивания знаний с применением статистической информации з
2.3. Модель нечеткого оценивания знаний с применением эталонных экспертных оценок 82
2.4. Разработка модели оценивания знаний на основе стохастического регрессионного анализа 88
2.5. Линейная модель наблюдений
2.5.1. Пример определения функции регрессии 95
2.5.2. Статистический анализ уравнения регрессии 100
2.5.3. Оценка адекватности модели 102
2.6. Выводы 103
3. Разработка метода принятия решений в условиях неполноты исходной информации 105
3.1. Этапы методики проектирования системы тестирования 105
3.2. Формализация параметров системы тестирования в условиях неполноты данных 108
3.3. Разработка математической модели принятия решений на основе классификации нечетких ситуаций 116
3.4. Разработка математической модели композиции нечетких правил вывода 124
3.5. Выводы 135
4 Разработка проблемно-ориентированных программных приложений для задач тестирования .138
4.1. Разработка структуры модуля принятия решений 138
4.2. Программное приложение и примеры решения задач тестирования знаний 139
4.3. Информационная тестовая система 155
4.4. Сравнительный анализ методов 164
4.5. Выводы 169
Заключение 170
Библиографический список
- Диагностические состояния и проверки
- Модель нечеткого оценивания знаний с применением эталонных экспертных оценок
- Разработка математической модели принятия решений на основе классификации нечетких ситуаций
- Информационная тестовая система
Диагностические состояния и проверки
На этапе анализа и интерпретации результатов обработки в целях улучшения качества теста производится проверка соответствия характеристик теста научно обоснованным критериям качества. На этапе коррекции содержания и формы заданий на основании данных предыдущего этапа осуществляется «чистка» теста, добавление новых заданий для оптимизации диапазона параметра трудности и улучшения свойств заданий теста. Происходит оптимизация длины теста и времени его выполнения, а также оптимизация порядка расположения заданий в тесте.
Аппарат и методы теории IRT широко используют в практике тестирования, что отражено в многочисленных зарубежных публикациях, так как алгоритмы IRT для оценки результатов испытуемых и конструирования новых тестов упрощают работу преподавателей и упрощают программно-инструментальные и программно-педагогические продукты. Наиболее распространены при компьютерном тестировании такие программы, как RASCH, RASCAL, Quest, ConQuest, а также программы XCALIBRE, ASCAL, LOGIMO, MSP, PARELLA и многие другие [43, 44]. Разработки корпорации ACS (Assessment Systems Corporation) MicroCAT, CAT, позволяют реализовывать адаптивные варьирующие алгоритмы с переменным шагом и осуществлять процессы генерации адаптивных тестов. Теория IRT занимает лидирующее положение при конструировании и применении педагогических тестов, а результаты исследователей Ф. Лорда (F.M. Lord), М. Новика (М. Novic), Е. Самеджима (E.Samejima), Д. Вэйса (D. Weiss), Б. Райта (В. Wright), Ури (Urry) и др. широко внедрены и апробированы при тестировании [45-47].
Теория IRT позволяет формировать тесты на основе математико-статистических моделей измерения и является частью более общей теории латентно-структурного анализа (LSA), так как предназначена для оценивания латентных параметров испытуемых.
Теория моделирования и параметризации тестирования (ТМПТ) позволяет эффективно организовать процесс организованного педагогического тестирования, как процесс измерения уровня подготовленности обучаемых в определенной области знаний. Результаты измерений (в полной аналогии с измерениями физических величин) отражаются на метрической шкале логитов, что обеспечивает объективность оценок обучаемых. Поэтому семейство логистических моделей, составляющих основу современной ТМПТ, называют моделями Раша [41-43]. Модель Раша позволяет в отличие от традиционной системы тестирования получить более объективные оценки знаний обучаемых, так как оценка уровня знаний студентов не зависит от трудности теста. Модель полезна для решения любых задач оптимизации учебного процесса - оценки эффективности педагогических инноваций и технологий, мониторинга и т.д. [10-12].
В приложениях тестирования в образовании задания тестов различных трудностей играют роль своеобразного измерительного инструмента, а исходными данными алгоритмов ТМПТ служат первичные баллы, то есть количество верно выполненных заданий (или определенных частей заданий) каждым испытуемым.
В качестве вывода по материалам данного подраздела назовем следующее. При разработке систем тестирования, моделей оценки качества образования следует опираться на те лучшие результаты, которые получены корпорациями или организациями, решающими эти задачи. Так как методы тестирования постоянно развивают в сторону их улучшения, то разработка новых моделей принятия решений при проведении тестирования и моделей оценки качества самих тестов является актуальной задачей.
Применение новых компьютерных технологий позволяет автоматизировать процесс текущего и итогового контроля на основе использования программно-инструментальных средств, поэтому предлагаемые модели должны быть доведены до уровня прикладного программного обеспечения, обеспечивающего не только диалог преподавателя с обучаемым, но и контроль учебной деятельности. Поэтому в информационном обеспечении необходим дружественный интерфейс, поддержка различных форм заданий и реализация сценариев контроля.
Методы и модели тестирования знаний направлены на решение большого круга задач: задачи тестирования, задачи выбора критерия качества обучения и т.д. Направленность данного раздела заключается в анализе перечисленных задач, в исследовании системы тестирования знаний, применения тестов и моделей оценки результатов тестирования знаний, на основе которых обосновывается предметная область диссертационной работы.
Модель нечеткого оценивания знаний с применением эталонных экспертных оценок
Как было показано в разд. 1, технологии тестирования широко используются на практике для объективного контроля знаний и умений обучаемых для установления степени их соответствия образовательным стандартам, при поступлении в вузы и прочее. Следовательно, существует необходимость создания математической модели тестирования знаний для описания системы оценки знаний, так как эти модели позволяют найти связи между критериями качества и технологиями образования, а также другими управляющими воздействиями на процесс обучения.
Тесты рассматривают как новые формы измерителей для оценки практической деятельности обучаемых, так как выявляют уровень практических навыков с помощью экспериментальных заданий. Результатом тестирования является некоторый материал, который затем оценивают эксперты в стандартизированной шкале баллов, либо применяется специализированный программный продукт, который фактически является воплощением тех или иных экспертных знаний [101, 102]. Появляется задача измерения, которая связана с критериями для оценки точности, критериями качества обучения.
Виды тестов (состав, целостность и структура) и требования к тестированию определены в разд. 1.4.2. Так как в тест стараются отобрать минимально достаточное количество заданий, которые позволяют с некоторой заданной точностью определить уровень и структуру подготовленности, то выбор критерия теста связан с выбором критерия качества обучения. То есть контрольно-оценочная система должна состоять из совокупности методик, алгоритмов, измерителей, функционирующих как единое целое не только для проверки результатов обучения, но и проверки объектов контроля и выработки корректирующих решений для повышения качества обучения.
В разд. 1.3 сформулированы задачи выбора критерия качества обучения. Рассмотрим, как эти задачи могут решаться [1, 4, 33, 35, 73, 79, 95, 96, 103].
Корректная интерпретация результатов тестирования требует сравнения набранных баллов каждым обучаемым с нормами выполнения теста. Нормы -совокупность показателей, отражающая результаты выполнения теста определенной выборки испытуемых. На практике обычно к нормам относят среднее значение тестовых баллов и показателей разброса вокруг среднего значения всех остальных баллов, полученных представительной выборкой тестируемых учащихся. Процесс определения норм называется стандартизацией теста. Норма - относительное понятие, тесно связанное с качеством выборки, использованной для стандартизации. При формировании выборки стандартизации необходимо учитывать две переменные - объем и представительность, обеспечивающие в совокупности высокую точность при оценивании норм выполнения теста.
Если х (t) - результат измерения некоторой величины x(t), то текущая погрешность определяется: S(t)=x(t)-x (t). Выбор критерия оценки 8(t) зависит от назначения величины x(t). В теории измерений известны следующие критерии [104]. Критерий наибольшего отклонения имеет вид Критерий наибольшего отклонения имеет вид 8Л max\S(t)\ = \x(t)-x(t)\, S(t)=x(t)-x (t). (2.1) Критерий применим, если известны априорные сведения о результате измерения в форме условия Липшица \x(t)-x (t)\ l(t ), где / - некоторая константа. Среднеквадратичный критерий приближения определяется по формуле . / г„,, . . і \ 2 \s2(t)dt =— \{x(t) - x(tj)2dt =а2д . (2.2) At 0 At 0 Среднеквадратический критерий применим для функций, интегрируемых в квадрате. Использование среднеквадратического критерия связано с усложнениями, например аппаратуры измерения, по сравнению с критерием наибольшего отклонения. Интегральный критерий, как меря отклонения x(t) от х (і) имеет вид ju = -\\S(t)\dt = Mj(. (2.3) At 0 При моделировании случайных процессов критерии (2.1)-(2.3) не применимы, так как согласно теории вероятностей и математической статистики [43,44,103] точность получаемых при имитационном моделировании результатов определяется выбранным критерием согласия и объемом выборки.
Относительно объема выборки N количества заданий при тестировании можно сделать следующие рекомендации [111]. В силу центральной предельной теоремы вероятностей частость m/N появления событий при N— oo имеет распределение, близкое к нормальному, поэтому для каждого значения достоверности а можно выбрать из таблиц нормального распределения такую величину ta, что точность є будет равна e = tjD[m/NJ. (2.4). Так как математическое ожидание частости М т N = р и дисперсия D ———, то подставляя значение D в (2.4) получаем N Из (2.5) можно определить количество реализаций N, необходимых для получения оценки m/N с точностью є и достоверностью а: N = 1 . (2.6) Є Так как формула (2.6) имеет два неизвестных параметра, то для определения N, выбирают 7Vo=50 - 100, по результатам N0 реализаций определяют m/N, а затем окончательно выбирают N, принимая p=m/NQ. При получении оценки по результатам моделирования среднего значения некоторой случайной величины со средним значением А и дисперсией о , точность определяется выражением s = taa/4N, (2.7) а число реализаций определится по формуле
Разработка математической модели принятия решений на основе классификации нечетких ситуаций
В соответствии с системным подходом, разработанным в разд. 1, определением системы (1.15), теоретико-множественной моделью представления результатов тестирования, тестирование представляет собой сложную систему, имеющую структуру, и, как любая система обладающая закономерностями [30]: целостности (эмерджентность); коммуникативности; иерархичности; историчности; самоорганизации и эквифинальности, а также закономерностями целеобразования.
Как было отмечено в разд. 1.2 тестирование результатов обучения должно осуществляться в рамках объективности оценки качества знаний, что в значительной степени обеспечивается принятыми методами и математическими моделями в системе оценки знаний. При тестировании существует достаточно большая степень неопределенности, как относительно самих правил построения тестов и проведения тестирования, так и относительно оценки результатов тестирования. Следовательно, существует потребность в разработке методики проектирования системы тестирования, включающей соответствующие методы и модели принятия решений в условиях неполноты исходной информации.
Необходимость разработки методики проектирования системы тестирования определена тем, что у лиц, принимающих решение, нет достаточных сведений о проблемной ситуации, позволяющей выбрать метод ее формализованного представления. Методика должна позволять формально представить систему тестирования, а затем организовать процесс принятия решений на основе знаний специалистов, с применением выбранных методов моделирования, а также со сменой этих методов по мере глубины оценки результатов тестирования.
Для методики проектирования системы тестирования, учитывающей условия неполноты исходной информации, нужно определить последовательность этапов, рекомендовать модели выполнения этих этапов, а также рассмотреть возможность возврата при необходимости к предыдущим этапам. Подобный подход будет полностью соответствовать таким известным методикам системного анализа, как методика С.Оптнера, В Э.Квейда, С.Янга, Ю.И.Черняка и Е.П.Голубкова [58, 118 - 120].
Задача методики ориентирована на достоверную оценку знаний тестируемых в условиях неполноты данных, поэтому процесс принятия решений, методы и модели его формализации в итоге являются основой формирования критериев достоверности.
Последовательность этапов методики проектирования системы тестирования показана на рис. 3.1. Подобные подходы к проектированию систем тестирования применяются [1 -3, 7 и др.], причем, перечисленные на рис. 3.1 этапы применяются в разной степени.
Этапы методики проектирования системы тестирования (см. рис. 3.1) являются достаточно обобщающими, так как любое проектирование системы начинается с обоснование актуальности разработки, формулирования цели и выбора критериев для оценки результатов функционирования системы, что и происходит на первых двух этапах.
Затем разрабатываются предложения по структуре системы тестирования и принимается решение о наилучшей структуре системы. На данном этапе необходимо применение экспертных знаний, т.е. появляется необходимость в моделях принятия решения с обработкой знаний экспертов.
Затем следует формализация параметров системы тестирования. В предшествующих разделах диссертации (см. разд. 1 и разд. 2) уделялось внимание цели тестирования, перечислению альтернатив и рассматривались некоторые известные модели оценки результатов тестирования, в основном, основанные на статистическом анализе.
Отметим, что модели и методы искусственного интеллекта при оценке знаний тестируемых, а также формализация параметров тестируемых, как правило, в существующих системах (например, при сдаче ЕГЭ) не применяются, хотя эти подходы очень хорошо зарекомендовали себя в условиях неполноты информации.
Цель диссертации состоит в развитии моделей и методов тестирования знаний с извлечением скрытых закономерностей информации при принятии решений в условиях неполноты данных. Это относится, как к оценке самой системы тестирования, так и к оценке результатов тестирования. Рассмотрим возможности применения методов искусственного интеллекта в задачах оценки результатов тестирования при построении методов и моделей принятия решений. Общим для задач процесса принятия решений является существование двух этапов: - поиск начального варианта модели принятия решений; - анализ начального варианта модели принятия решений и определение пути совершенствования модели.
Во втором разделе рассмотрен ряд моделей системы оценки знаний [45-48, 103, 111], в основу которых положены статистические подходы, а также подходы с применением экспертных оценок ряда параметров.
Известные модели дали определенные полезные результаты [48,49], однако, продолжается публикация критических замечаний и высказываний о несовершенстве системы тестирования знаний [35, 111]. Это определяется в значительной степени невозможностью создания строго формализованного подхода к разработке тестов, а также обработке их результатов из-за значительного количества эвристических приемов [112, 113], а также применения вербальных параметров, которые используют при оценке знаний.
Рассмотрим некоторые примеры. Процент выполненных заданий хотя и имеет конкретное значение, но зависит от сложности тех или иных заданий, величина этого показателя по сути неопределенная. То же самое относится и к показателю «средний балл», значение которого может быть достигнуто за счет выполнения неоднозначных по сложности (интеллектуальным затратам) заданий. Успеваемость, качество, которые оцениваются, как правило, исходя из процента оценок «4» и «5» по пятибалльной шкале позволяют получать только общее представление, т.к. совершенно не учитывают индивидуальных свойств обучаемых или методов обучения и, тем более, не позволяют оценить, например, качество учебного плана подготовки специалистов в высшем учебном заведении.
Существующие в настоящее время многочисленные показатели качества обучения, принятые результаты тестирования [69, 94, 98] полезны, однако для более достоверного оценивания процесса и результатов обучения, а также достоверной конкретизации знаний отдельного обучаемого следует применять дополнительно модели нечеткого логического вывода [19, 22-24, 26-29, ,91-93, 114, 115, 141]. Данные модели позволяют более полно оценивать результат за счет эффективного применения знаний экспертов.
Применение модулей принятия решений на основе моделей нечеткого логического вывода, в составе информационного обеспечения, позволяет достаточно оперативно настраивать базу правил нечеткого логического вывода, а также формализовать нечеткие знания относительно тех или иных параметров задачи тестирования. Структурная и иерархическая модели нечеткой системы тестирования знаний представлены на рис. 3.2-3.3.
Информационная тестовая система
Маска ответов должна представлять собой ряд из символов «+» и «-», где «+» означает, что задание с номером, соответствующим номеру символа в ряде, выполнено, а «-» - не выполнено. В различных тестах может варьироваться количество заданий каждого уровня сложности (тип А, тип В, тип С). Необходимо иметь возможность изменять количество заданий каждого типа. Обычно, в результате тестирования оценка представляет собой процентное соотношение количества выполненных заданий к количеству заданий в тесте. Но в школах используется пятибалльная шкала оценки, поэтому необходимо позволить пользователю выбирать, какую шкалу оценки он предпочитает.
Таблицу перевода оценок 100-балльной шкалы в 5-балльную по различным предметам в школе предоставляет Федеральный центр тестирования Минобрнауки РФ. Пользователь должен иметь возможность установить различные параметры перевода шкалы оценки.
В связи с тем, что необходимо контролировать работу как по всем школам / факультетам, так и по отдельным школам / факультетам, нужно предусмотреть возможность выбора пользователем, с чем конкретно он собирается работать.
Исходя из того, что пользователю необходимо как наглядное представление результатов на экране, так и в печатном виде, необходимо реализовать вывод результатов в документ, откуда пользователь может его распечатать.
На рис. 4.2 приведена структура главного меню программного приложения. Данное программное приложение представляет собой систему оценки знаний по результатам тестирования. Главная форма называется «Определитель успеваемости» и включает 3 кнопки (файл, настройки и правила), по нажатию которых производится переход к 3-м другим окнам. Для корректной работы программы сначала необходимо настроить модель и задать базу нечетких правил, а потом загрузить файл с данными для анализа.
На первом этапе происходит настройка всех параметров модели. По нажатию в главной форме в меню на кнопку «Настройки» открывается список из 3-х действий: изменить, сохранить, загрузить (рис. 4.3). При выборе вкладки изменить открывается диалоговое окно «Настройки» (рис. 4.4), включающее в себя две вкладки: «Фиксированные переменные» и «Лингвистические переменные» (рис. 4.5). Во вкладке «Фиксированные переменные» задаются столбцы из файла данных для анализа, содержащие: идентификатор, фамилию, имя, отчество, группу и вариант. Во вкладке «Лингвистические переменные» задаются: название лингвистической переменной, сокращенное название, максимальное значение определения переменной по оси X, длина единичного интервала (шаг) по оси X, тип переменной (входная, выходная) и столбец в файле, соответствующий данной переменной. По нажатию кнопки «Нечеткие переменные» открывается диалоговое окно «Нечеткие переменные» (рис. 4.6). В данном окне для каждой лингвистической переменной задаются нечеткие переменные. Каждая нечеткая переменная содержит: название переменной, сокращенное название, приоритет переменной и цвет на графике.
По нажатию кнопки «Функции принадлежности» открывается диалоговое окно «Функции принадлежности» (рис. 4.7). В данном окне по точкам задаются графики функций принадлежности для каждой нечеткой переменной. На рис. 4.8-4.12 представлены графики задания функций принадлежности для входных и выходной переменных модели. П ііпі тлтгда
Для редактирования функций принадлежности необходимо определить значение точки по осям X и Y и нажать кнопку «Задать». Для удаления вершины необходимо выделить значение координаты вершины и нажать кнопку «Удалить».
После настройки всех ЛП модели необходимо задать базу правил нечеткого вывода. По нажатию в главной форме в меню на кнопку «Правила» открывается список из 3-х действий: изменить, сохранить, загрузить (рис. 4.13). При выборе вкладки изменить открывается диалоговое окно «База правил» (рис. 4.14). Данное окно содержит три области: область выбора лингвистических и нечетких переменных, область отображения текста правила и область отображения всей базы нечетких правил. Для того чтобы определить правило, следует выделить поля с именем лингвистической переменной и соответствующей ей нечеткой переменной для входных и выходной переменных и нажать кнопку «Добавить». Введенное правило отобразится в поле «Текст правила». Каждому правилу нечетких продукций соответствует отдельная строка в области отображения всей базы нечетких правил. При нажатии на кнопку «Проверка базы правил» осуществляется проверка базы нечетких правил на непротиворечивость (рис. 4.15).
После задания нечеткой базы правил необходимо загрузить файл с данными результатов тестирования для анализа. По нажатию в главной форме в меню на кнопку «Файл» открывается список из 3-х действий: загрузить данные, экспорт данных и провести расчет (рис. 4.16). При выборе вкладки «загрузить данные» появляется диалоговое окно «Открыть» (рис. 4.17). В этом окне задается путь и имя файла, в котором содержится база данных результатов тестирования.
После выбора файла для анализа происходит отображение данных результатов тестирования в виде таблицы в нижней области главной формы программного приложения (рис. 4.18). После загрузки данных нужно выбрать пункт меню «Провести расчет».