Содержание к диссертации
Введение
ГЛАВА 1. Состояние работ в области измерения латентных переменных 11
1.1. Недостатки традиционного тестирования 13
1.2. Актуальность объективного измерения латентных переменных . 15
1.3. Выводы 17
ГЛАВА 2. Разработка программного обеспечения для вычисления и исследования параметров модели раша 19
2.1. Разработка алгоритма вычисления параметров модели Раша методом максимального правдоподобия 20
2.2. Отличительные особенности программы Naib для вычисления и анализа параметров модели Раша 26
2.2.1. Возможности программы Naib 26
2.2.2. Интерфейс программы 26
2.2.3. Представление результатов анализа 28
2.2.4. Импорт результатов тестирования и экспорт оценок параметров модели Раша 31
2.3. Выводы 32
ГЛАВА 3. Исследование оценок параметров модели раша 33
3.1. Исследование смещения оценок уровня знаний (параметр 0j) модели Раша 33
3.1.1. Исследование смещения оценок уровня знаний 9j, вычисляемых программой Naib, в зависимости от сдвига теста относительно выборки 34
3.1.2. Исследование смещения оценок уровня знаний 0І5 вычисляемых программой RUMM, в зависимости от сдвига теста относительно выборки 48
3.1.3. Анализ смещения оценок уровня знаний 9j в зависимости от алгоритма вычисления и сдвига теста относительно выборки 58
3.2. Исследование точности вычисления параметров модели Раша 65
3.2.1. Исследование смещения вероятности правильного ответа испытуемого на задания теста в зависимости от сдвига теста и алгоритма вычисления параметров модели Раша 65
3.2.2. Исследование точности вероятности правильного ответа испытуемого на задания теста в зависимости от сдвига теста и алгоритма вычисления параметров модели Раша 70
3.3. Сравнение дифференцирующей способности системы тестирования на основе модели Раша и традиционной системы тестирования 75
3.3.1. Постановка задачи 76
3.3.2. Выбор схемы анализа с расщепленными делянками 79
3.3.3. Модель представления и дисперсионный анализ данных имитационного эксперимента 81
3.3.4. Интерпретация результатов статистического анализа 83
3.3.5. Оценка эффекта расщепления экспериментальных делянок . 86
3.3.6. Исследование точности сравнения систем тестирования 86
ГЛАВА 4. Применение системы измерения латентных переменных на основе модели раша в задачах контроля качества уровня знаний студентов 91
4.1. Оценка качества теста на основе модели Раша 91
4.2. Оценка эффективности разработанного банка тестовых заданий . 99
4.3. Анализ устойчивости оценок трудности тестовых заданий 102
Заключение 107
Библиографический список использованной литературы 109
Приложение 123
- Актуальность объективного измерения латентных переменных
- Отличительные особенности программы Naib для вычисления и анализа параметров модели Раша
- Исследование точности вычисления параметров модели Раша
- Оценка эффективности разработанного банка тестовых заданий
Введение к работе
Актуальность темы. Управление качеством обучения в значительной степени зависит от объективности и надежности измеряемых переменных. Одна из особенностей управления в области обучения, и образования в целом, состоит в том, что большинство используемых переменных являются латентными (скрытыми), т.е. не измеряются в явном виде, как, например, вес или длина в физике. Типичной латентной переменной является уровень знаний обучаемых. Используемые же на практике методы измерения латентных переменных обладают существенными недостатками.
Так, наиболее широко распространенная балльная система оценивания уровня знаний обладает принципиальным недостатком - субъективностью. Например, оценка "З" у одного преподавателя может соответствовать большему уровню знаний, чем оценка "4" у другого преподавателя.
Далее, классическая или традиционная система тестированная, основанная на доле правильных ответов, также обладает существенными недостатками. В этой системе тестирования оценка уровня знаний зависит от набора тестовых заданий. Например, если тест состоит из легких заданий, то доля правильных ответов будет большой. Если же тестовые задания трудные, то доля правильных ответов будет небольшой. Результаты же объективных измерений не должны зависеть и не зависят от используемого измерительного инструмента. Кроме того, результаты измерения в этой системе являются существенно нелинейными. Так, одна и та же разность в числе правильных ответов по краям шкалы и в середине шкалы соответствует различной разнице в уровне знаний. Например, при общем числе тестовых заданий, равном 100, разница между числом правильных ответов 1 и 5 соответствует большей разнице в уровне знаний, чем между числом правильных ответов 48 и 52.
У современной системы тестирования, основанной на модели Раша, этих недостатков нет, кроме того, она обладает еще целым рядом важных достоинств.
Модель Раша превращает измерения, сделанные в дихотомических и порядковых шкалах, в линейные измерения, в результате качественные данные можно анализировать с помощью количественных методов.
Поскольку мера измерения параметров модели Раша является линейной, то это позволяет использовать широкий спектр статистических процедур.
Оценка трудности тестовых заданий не зависит от выборки испытуемых, на которых была получена.
Оценка уровня знаний испытуемых не зависит от используемого набора тестовых заданий.
Пропуск данных для некоторых комбинаций (испытуемый - тестовое задание) не является критическим.
Сама система тестирования достаточно проста, по сравнению с другими аналогичными системами она характеризуется наименьшим числом параметров - только один параметр уровня знаний для каждого испытуемого и только один параметр трудности для каждого задания.
Модель Раша опирается на четкие и конструктивные понятия "трудность задания" и "уровень знаний". Так, одно задание считается более трудным, чем другое, если вероятность правильного ответа на первое задание меньше, чем на второе, независимо от того, кто их выполняет. Аналогично, более подготовленный студент имеет большую вероятность правильно ответить на все задания, чем менее подготовленный.
Благодаря простой структуре модели существуют удобные вычислительные процедуры для многоаспектной проверки адекватности модели: для всего набора тестовых результатов, для каждого испытуемого, для каждого задания и для каждого конкретного ответа. "Остатки", получаемые при аппроксимации результатов тестирования моделью, можно использовать для выделения различных типов испытуемых -"угадывателей", "лентяев", "дотошных" и "копух" [10, 11].
Благодаря этим достоинствам модель Раша находит все более широкое применение в самых различных областях [12, 13, 14, 15].
Однако несмотря на 40-летний опыт применения этой системы тестирования за рубежом во многих областях знания, прежде всего в образовании, медицине и психологии, до сих пор продолжаются дискуссии об истинной ценности и эффективности системы тестирования на основе модели Раша. До сих пор существуют две крайние точки зрения на эту модель тестирования.
Наиболее убежденные сторонники модели Раша утверждают следующее: "Можно ли собрать или построить или сформулировать данные так, чтобы они соответствовали определению измерения (имеется в виду модель Раша)? Если нет, - то такие данные бесполезны".
Их наиболее последовательные оппоненты утверждают следующее: "Данные - это данные, а модель - это конструкция исследователя, которая подвержена ошибкам". Например, при построении регрессии, выбрасывая те или иные данные, можно получить любую зависимость, но мы тем самым ограничиваем реальный мир данных. Таким образом, мы создаем искусственную переменную, о которой мало что знаем.
Для практики одним из наиболее важных критериев является точность оценивания. Основной проблемной ситуацией является наличие противоречивой информации относительно точности системы тестирования на основе модели Раша.
Так, некоторые исследователи среди многих положительных качеств модели Раша отмечают ее высокую точность, например [16]. В этой работе утверждается, что дисперсия ошибки измерения для классических моделей равномерно больше дисперсии ошибки измерений для семейства моделей, к которому относится и модель Раша. Однако есть работы, в которых делается вывод о невысокой точности этой модели [17].
Кроме того, не удалось найти работы, в которых проведен всесторонний анализ точности модели Раша. Во многих работах только даются те или иные общие рекомендации по использованию этих моделей.
Учитывая противоречивость информации и неопределенность по многим аспектам применения модели Раша в современных системах измерения латент-
8 ных переменных, была определена тема научной работы: "Разработка системы измерения латентных переменных на основе модели Раша для контроля уровня знаний обучаемых".
Объектом исследования является система измерения латентных переменных на основе модели Раша.
Предметом исследования является оценка эффективности системы измерения латентных переменных в задачах контроля уровня знаний обучаемых.
Цель работы заключается в повышении эффективности измерения латентных переменных в задачах контроля уровня знаний обучаемых.
Определение цели исследования обусловило необходимость решения следующих задач:
Разработать программное обеспечение для вычисления оценок уровня знаний и трудности заданий на основе модели Раша.
Разработать методику исследования модели Раша методами имитационного моделирования.
Провести исследование смещения оценок параметров модели Раша в зависимости от сдвига теста относительно выборки.
Оценить устойчивость системы измерений на основе модели Раша к зашумлению результатов тестирования.
Построить банк тестовых заданий для контроля уровня знаний студентов по учебным дисциплинам блока "Информатика".
Оценить эффективность системы измерения латентных переменных на основе модели Раша в задачах контроля уровня знаний обучаемых.
Для решения поставленных задач использовались следующие методы исследования: имитационное моделирование, современные методы планирования и анализа эксперимента, методы математической статистики, в частности многофакторный дисперсионный и регрессионный анализ.
9 Научная новизна и теоретическая значимость исследования состоит в следующем:
Создана методика исследования измерения латентных переменных на основе модели Раша методами имитационного моделирования.
Разработан и реализован алгоритм анализа влияния зашумленности результатов тестирования на адекватность модели Раша, а значит, и на корректность измерения латентных переменных.
Проведено сравнительное исследование точности и смещения оценок параметров модели Раша в зависимости от сдвига теста.
Произведена оценка качества банка тестовых заданий по предметному блоку "Информатика" в рамках модели Раша.
В целом показано, что использование модели Раша для обработки результатов тестирования позволяет получить достаточно точные и устойчивые оценки уровня знаний. Такие оценки позволяют более эффективно управлять процессом обучения.
Практическая значимость исследования состоит в следующем:
Разработан пакет прикладных программ для измерения латентных переменных на основе модели Раша.
Исследована эффективность системы измерения уровня знаний обучаемых на основе модели Раша.
Создан банк тестовых заданий по предметному блоку "Информатика" для студентов педагогических вузов.
Разработанное программное обеспечение используется в Славянском-на-Кубани государственном педагогическом институте для объективного контроля уровня знаний студентов по дисциплинам предметного блока "Информатика", филологии, философии и другим дисциплинам.
На защиту выносятся:
1. Методика исследования измерения латентных переменных на основе модели Раша методами имитационного моделирования.
2. Результаты анализа влияния зашумленности результатов тестирования на адекватность модели Раша.
Зависимости точности и смещения оценок параметров модели Раша от сдвига теста в задачах контроля уровня знаний обучаемых.
Результаты анализа банка тестовых заданий по предметному блоку "Информатика" в рамках модели Раша.
Реализация и внедрение полученных результатов. Результаты диссертационного исследования нашли широкое применение в Славянском-на-Кубани государственном педагогическом институте на кафедрах информатики, литературы, общественных дисциплин, общетехнических дисциплин, - всего на 12 кафедрах, - при проведении тематического и итогового тестирования, а также при оценивании уровня остаточных знаний. Кроме того, полученные результаты являются инфраструктурой для разработки системы управления качеством образования в вузе.
Основные идеи и результаты исследования были представлены на следующих конференциях и семинарах: I, II, III, IV всероссийских научно-практических конференциях "Оценка эффективности образовательных инноваций и технологий" (Славянск-на-Кубани, 1999 - 2002 гг.); XI, XII международных научно-практических конференциях "Информационные технологии в образовании" (Москва, 2001, 2002 гг.); конференции "Анализ качества образования и тестирование" (Москва, 2001 г.); III Всероссийской научно-методической конференции "Развитие системы тестирования в России" (Москва, 2001 г.); XI международной конференции по объективным измерениям (Новый Орлеан, США, 2002 г.); всероссийской научно-практической конференции "Вузовский учебник 21 века" (Краснодар, 2002 г.).
Публикации. Результаты, полученные в диссертационной работе, опубликованы в 7 печатных работах.
Актуальность объективного измерения латентных переменных
Сама идея существования латентных (скрытых), т.е. явно ненаблюдаемых качеств, лежащих в основе свойств личности, известна давно. Уже в эпоху Возрождения скрытые качества рассматривались как некие силы, присущие всем вещам, причем каждая вещь представлялась как нечто двойственное: чувственно воспринимаемый предмет и внутреннее «скрытое качество», которое вызывало изменение наблюдаемых свойств [51]. В середине XX века эта идея легла в основу теории структуры личности, состоящей из «скрытых качеств» и связанных с ними наблюдаемых свойств [94]. Для этой теории был разработан математический аппарат, позволяющий оценить латентные параметры личности (теория латентно-структурного анализа) [87, 99, 102, 105, 107, 130]. Для измерения же латентных переменных используется модель, разработанная датским математиком Г. Рашем. В области образования среди измеряемых латентных переменных наибольший интерес представляет уровень знаний обучаемых.
Суть измерения латентной переменной на основе модели Раша состоит в следующем [3, 31, 61, 83, 91, 114, 123]. Ответ і-ого испытуемого по j-ому тестовому заданию рассматривается как вероятностная функция взаимодействия двух основных факторов - уровня развития интересующего свойства (латентной переменной) 9j и уровня трудности тестового задания (3j. Вероятность правильного ответа испытуемого на вопрос теста тем ближе к единице, чем выше 0j и чем ниже Pj. Это условие компактно записывается как функция от разности двух параметров:
Из выражения (1.1) ясно, что высокая вероятность правильного ответаобеспечивается либо высокими значениями 9;, либо низкими Pj. При обратномсоотношении вероятность успеха низка и приближается к нулю.
Вероятность правильного ответа і-ого испытуемого с уровнем знаний 0jна j-oe тестовое задание, имеющего трудность Pj, определяется вероятностноймоделью Раша [103, 114, 116]: і Сгде P(Xy) - вероятность правильного ответа і-го испытуемого на j-e задание теста в зависимости от величины разности (0; - Pj).
На основе выражения (1.2) определяется вероятность неправильного ответа Qy = 1 - Ру,Еще одним выражением, важным для модели Раша, является определение шансов на успех і-ого студента при ответе Haj-oe задание „(ві-Pj)1 + е(в Выражение (1.4) после элементарных преобразований становится равныме J. При сравнении шансов на успех 1-ого студента с m-ым студентом при ответе Haj-oe задание оказывается, что эти шансы не зависят от трудности заданияа зависят только от уровня знаний испытуемых. Это свойство модели Раша является исключительно важным в теории измерений латентных переменных. Именно с помощью модели Раша удалось сделать то, что ранее было невозможным, - сравнить шансы на успех различных студентов независимо от трудности используемого задания. Из (1.5) видно, что результат сравнения шансов на успех в тестовом задании зависит исключительно от сравнения знаний отдельных студентов и совсем не зависит от сложности задания.
Аналогично из модели Г. Раша выводится и другой, не менее знаменательный результат - отношение трудностей любых двух заданий (к-ого и п-ого) не зависит от уровня знаний і-ого испытуемогоВзяв натуральный логарифм отношения в формулах (1.5) и (1.6), Г. Раш получил новую единицу измерения - логит, которая, как оказалось, позволяет измерять в одной шкале как уровень знаний испытуемых, так и уровень трудности заданий.
Практическое значение этого достижения в области измерений латентных переменных трудно переоценить, поскольку позволяет привести к одной единице измерения, на первый взгляд, несравнимые параметры уровня знаний и трудности заданий. Все это открывает новые возможности в выявлении взаимосвязей в гуманитарных науках [3].
Однако несмотря на многолетний, прежде всего зарубежный, опыт использования этой модели, до сих пор существуют прямо противоположные мнения об эффективности измерений на основе модели Раша.
Как отмечено выше во введении, все еще остается актуальным вопрос об исследовании эффективности применения модели Раша для оценки латентных параметров испытуемых и заданий теста и, соответственно, эффективности применения этой модели для решения задач контроля качества обучения [4, 5, Выявлены принципиальные недостатки традиционных систем тестирования. Несмотря на различные модификации и технические усовершенствования, эти недостатки не могут быть устранены. Измерения на основе модели Раша лишены этих недостатков, что открывает новые возможности для проведения исследований в гуманитарных науках, в том числе в области образования. Однако учитывая противоречивость информации и неопределенность по многим аспектам применения модели Раша, необходимо исследовать и оценить эффек тивность этой современной системы тестирования в различных экспериментальных ситуациях при оценивании уровня знаний.
Работа построена следующим образом. Для удобства исследования различных параметров системы измерений на основе модели Раша разработана диалоговая система Naib (глава 2). Исследование оценок параметров модели Раша в задачах измерения латентных переменных проводится на основе имитационного эксперимента (глава 3). Для подтверждения полученных результатов используются данные реальных тестирований, проведенных на основе разработанных наборов тестовых заданий по предметному блоку «Информатика» (глава 4).
В настоящее время разработано несколько зарубежных программных средств, позволяющих измерять латентные переменные (оценки параметров модели Раша). Наиболее известными комплексами являются следующие: RUMM (Rasch Unidimensional Measurement Model), WINSTEPS, BILOG и другие.Однако использование и анализ этих программных средств затруднен из-за нескольких обстоятельств. Прежде всего, это относительно высокая их стоимость. Например, пакет RUMM с инсталляцией на один компьютер стоит 500 долларов США.
Кроме того, опыт разработки и использования больших универсальных программных комплексов показывает, что многие достоинства моделей анализа данных в значительной степени зависят от алгоритма обработки. Например, в широко известном пакете STATISTICA, который занимает первые места во многих международных рейтингах, дисперсионный анализ осуществляется на основе универсального алгоритма обращения матрицы. Однако опыт показывает, что для некоторых задач, имеющих полностью сбалансированные структуры, итерационный процесс не сходится или дает некорректные результаты.
Предварительные исследования показали, что оценки параметров модели Раша существенно зависят от алгоритма их вычисления [28, 31, 38, 39, 44, 55, 58, 66, 83, 84]. Автором разработана программа, в которой оценки параметров модели Раша вычисляются методом максимального правдоподобия [48,61,65].Проведен сравнительный анализ точности измерений латентных переменных для двух алгоритмов:- алгоритма, основанного на методе наибольшего правдоподобия. Этот алгоритм реализован в программе Naib, разработанной автором;
Отличительные особенности программы Naib для вычисления и анализа параметров модели Раша
Описанный в предыдущем параграфе алгоритм вычисления оценок параметров модели Раша реализован в программе Naib. Программа была разработана с использованием среды программирования Delphi 5.0.
В соответствии с моделью Раша в системе предусмотрена возможность исключения из матрицы неинформативных данных, то есть строк и столбцов, содержащих все нули, единицы или "пропуски". Это можно делать как в пользовательском режиме, когда пользователь сам выбирает столбец или строку, которую необходимо удалить, так и в автоматическом режиме. Имеется возможность изменения в тестовой матрице результатов тестирования. При этом можно отменять сделанные изменения матрицы и повторять отмененные действия (до ста операций).
Для упорядочивания тестовой матрицы есть возможность сортировать строки и столбцы матрицы (по профилям ответов).
Для более гибкого применения системы исходные данные могут быть представлены либо в ASCII-файле, либо в файле формата Excel. Полученные оценки параметров модели Раша можно записать в выходной ASCII-файл.
В программе реализована возможность построения индивидуальных кривых испытуемых, характеристических кривых заданий теста, а также информационных функций как отдельного задания теста, так и всего теста в целом.
Программа Naib поддерживает графический интерфейс пользователя, в целом аналогичный интерфейсу ОС Windows. Все опции и режимы работы программы выбираются с помощью мыши или соответствующими комбинациями клавиш клавиатуры. Строка меню программы содержит следующие пункты: «Файл», «Правка», «Вид», «Сервис», «Операции», «Алгоритм», «Программы», «Справка». Рассмотрим подробно каждый из пунктов меню.загружать данные тестирования (команда Импорт данных); сохранять полученные оценки параметров модели Раша (команда Экспорт данных);закрыть текущий набор данных (команда Закрыть); завершить работу с программой (команда Выход). Пункт меню «Правка» позволяетотменять последние сделанные действия (команда Отменить); повторять отмененные действия (команда Повторить); выделить строку, столбец или ячейку матрицы (команда Выделить Строку [Столбец, Ячейку]); удалить выделенную строку или столбец.
Пункт меню «Вид» позволяет включать/отключать отображение Панели инструментов и Статусной строки. Пункт меню «Сервис» позволяет- устанавливать/снимать защиту на корректировку матрицы тестирования;- устанавливать режим автоматической или ручной корректировки матрицы.Пункт меню «Операции» позволяет- открывать окно вывода результатов вычислений, в котором отображаются оценки уровня знаний учащихся, уровня трудности заданий теста, характеристические кривые и информационная функция каждого задания отдельно и всего теста в целом;- сортировать матрицу тестирования по трудности заданий и профилям ответов учащихся.
Пункт меню «Алгоритм» позволяет запустить на выполнение процедуру вычисления оценок параметров модели Раша методом наибольшего правдоподобия.Пункт меню «Программы» позволяет запустить программы Блокнот и Калькулятор.Пункт меню «Справка» позволяет просмотреть информацию О программе.
После проведенного анализа и вычисления оценок параметров модели Раша результаты можно просмотреть с помощью команды Операции — Оценки. На экране отображается окно (рис. 2.3, 2.4, 2.5), в котором можно просмотреть вычисленные оценки уровня знаний учащихся и оценки уровня трудности заданий теста. В зависимости от выбранного режима в группе Графики оценок в верхней части окна могут отображаться:- индивидуальная кривая учащегося; - характеристическая кривая задания теста;- график информационной функции задания теста;- график информационной функции всего теста.
Причем представленные кривые можно отображать в двумерном и трехмерном виде. Характеристические кривые могут быть построены для одного учащегося (задания) или для всех учащихся (заданий).
В настоящее время наиболее употребляемыми для хранения и представления результатов тестирования являются форматы ASCII-файла и табличного процессора MS Excel. Диалоговая система поддерживает импорт обоих этих форматов.
Ввод исходных данных тестирования осуществляется командой Файл — Импорт данных.Результаты тестирования в исходном ASCII-файле должны быть представлены в виде:Строки файла соответствуют учащимся с их профилями ответов на задания теста. Используются такие обозначения: "1" - правильный ответ учащегося на задание теста, "0" - неправильный ответ, "#" - ответ пропущен (отсутствует).
Имеется возможность экспортировать результаты проведенных вычислений в текстовый файл формата ASCII с помощью команды Файл — Экспорт данных. Выходной файл содержит следующую информацию:- полный путь к файлу исходных данных;- фамилия, имя, отчество учащихся с оценками уровня знаний;- номера заданий теста с оценками уровня трудности;- исходная матрица тестирования.Данный файл можно использовать для проведения других исследований параметров модели Раша.
Для удобства работы пользователя в системе предусмотрена сортировка профилей ответов (по оценкам #,) и заданий теста (по оценкам /?.).Программа позволяет вычислять и отображать (рис. 3) информационную функцию как для каждого задания, так и для всего теста в целом. Для получения эффективных оценок параметров модели Раша в программе реализован метод наибольшего правдоподобия, который описан в пар. 2.2.
Разработан алгоритм вычисления параметров модели Раша методом максимального правдоподобия. Для решения системы нелинейных уравнений используется итерационный подход. Вначале полагаем известными оценки трудности заданий и вычисляем оценки уровня знаний испытуемых. Затем найденные оценки уровня знаний рассматриваются как постоянные и вычисляются оценки трудности заданий, максимизирующие логарифм функции правдоподобия. Итерации продолжаются до тех пор, пока абсолютные значения разностей в результате итераций не станут меньше заранее заданной константы. По умолчанию константа выбрана равной 0,001.
Разработанный алгоритм реализован в программе Naib в среде программирования Delphi. Описаны основные возможности программы Naib, подробно представлен интерфейс программы, разработаны наглядные способы представления результатов анализа, реализован импорт результатов тестирования и экспорт оценок параметров в виде ASCII-файлов и файлов Excel. Кроме того, программа позволяет исследовать эффективность самой модели Раша.
Программа апробирована более чем на трех десятках наборов результатов тестирования. При оценке эффективности измерений на основе модели Раша можно выделить две основные взаимосвязанные группы аспектов - статистические и практические [9, 28, 38, 39, 63]. Статистические аспекты связаны с точностью оценивания уровней знаний и трудностей заданий. Чем больше точность, тем лучше работает модель. В случае отсутствия ошибок измерения любая модель, в смысле точности измерения, работает идеально. Но на практике ошибки всегда есть, и поэтому важно знать, насколько точные оценки позволяет получать та или иная модель. Наиболее важные аспекты, конечно, практические - необходимо оценить, в какой степени результаты тестирования, проводимого на практике, адекватны модели Раша, насколько точны выводы, получаемые с помощью этой модели.
Для исследования выбраны следующие аспекты:- смещение оценок уровня знаний испытуемых в зависимости от сдвига теста относительно выборки;- точность вычисления параметров модели Раша;- дифференцирующая способность параметров модели Раша.Смещение оценок параметров является одним из наиболее важных аспектов эффективности оценок [44, 63]. Если оценки сильно смещены, то даже высокая точность их вычисления (небольшие значения среднеквадратического отклонения) не делает такие оценки эффективными для практического использования. Здесь исследуются смещения оценок уровня знаний испытуемых в зависимости от сдвига теста относительно выборки и алгоритма вычисления параметров модели. Для этих целей используется программа Naib, в которой реализован разработанный алгоритм максимального правдоподобия (пар. 2.1) [61] и программа RUMM, в которой реализован алгоритм парных сравнений [91].
Исследование точности вычисления параметров модели Раша
В модели Раша выходной величиной является вероятность правильного ответа учащегося с уровнем знаний G на задание трудностью РЦелью параграфа является исследование влияния сдвига теста относительно выборки и алгоритма получения оценок параметров модели Раша на смещение оценки вероятности правильного ответа относительно истинной вероятности Рист - Роц. Истинное значение вероятности Рист определяется по значениям параметров 0 и (3, которые используются в имитационном эксперименте.
Для проведения этого анализа используются все те же данные, сгенерированные в рассматриваемом имитационном эксперименте: 17 уровней знаний и 17 уровней трудности заданий. Каждый из 17 уровней знаний и трудностей заданий используется в трехкратной повторности, так что матрица результатов тестирования имеет размерность 51x51.
При фиксированной величине сдвига А результаты тестирования генерировались 10 раз. В итоге получены 60 матриц тестирования (по 10 матриц на каждую величину сдвига).
Каждая матрица обрабатывалась двумя программами вычисления оценок параметров модели Раша: программой RUMM 2010 и программой Naib. В результате были получены оценки уровней знаний индивидов 9 / и уровней трудности заданий ру для каждой из 60 матриц (z, j = 1,51) и для каждой из двух программ. По вычисленным оценкам параметров 9, и (Зу определяется оценка вероятности правильного ответа испытуемого с уровнем знаний 9, на задание трудностью РУ. Затем вычисляется смещение оценки вероятности правильного ответа относительно истинной вероятности:матрицу смещений размерностью 51x51. По даннойматрице находим среднее значение смещения. Данную процедуру повторяем для всех полученных наборов оценок 9, и ру при фиксированной величине сдвига А и для каждой программы RUMM и Naib отдельно. Результаты вычислений приведены в табл. 3.21.
В соответствии с целью эксперимента откликом Y является отклонениеполученных оценок вероятностей правильного ответа относительно истиннойвероятности (табл. 3.21).В статистических терминах задача формулируется следующим образом: исследуется влияние на отклик Y трех факторов.
Фактор А, характеризующий сдвиг теста относительно выборки, варьируется на 6 уровнях. Уровень ai соответствует сдвигу А = 0 логит, уровень а2 -А = 0,5 логит, уровень а3 - А = 1 логит, уровень а4 - А = 1,5 логита, уровень as -А = 2 логита, аб - А = 2,5 логита.
Фактор В соответствует десяти прогонам эксперимента. В терминах планирования эксперимента - это блок-фактор, который варьируется на десяти уровнях Ьі, Ьг, ... Ью Фактор С - вид алгоритма получения оценок параметров модели Раша, варьируется на двух уровнях. Уровень с і соответствует программе RUMM, уровень с2 - программе Naib.
Экспериментальные данные можно представить моделью трехфакторного эксперимента:где уук - отклик, полученный при і-ом уровне фактора А (і = 1,6), j-ом уровне фактора В (j = 1, 10) и k-ом уровне фактора С (k = 1, 2); (ay)ik - эффект взаимодействия і-го уровня фактора А с k-м уровнем фактора С;Syk - ошибка эксперимента, полученная при і-м уровне фактора А, j-м уровне фактора В и k-м уровне фактора С.
Так как фактор В соответствует повторениям генерации данных исследования при неизменных параметрах имитационной модели, то эффекты взаимо действия с другими факторами (А, С) используются для оценки среднего квадрата ошибки. Поэтому эффекты всех взаимодействий с фактором В (ABC, АВ, ВС) используются для оценки ошибки эксперимента є.Результаты дисперсионного анализа величины смещения (табл. 3.21) согласно модели (3.4) представлены в табл. 3.22.
Произведем интерпретацию полученных результатов дисперсионного анализа. Значимость всех источников дисперсии проверяется при уровне значимости ос = 0,05.1) Фактор А незначим (F3Kcn = 0,48 FTa6n = 2,31). Это означает, что в среднем для всех уровней факторов В и С (всех десяти генераций данных, для двух алгоритмов получения параметров модели) уровни фактора А значимо не отличаются друг от друга по показателю Y.2) Фактор В незначим (F3Kcn = 1,62 FTa6n = 1,97). Это означает, как и следовало ожидать, что в среднем для всех уровней факторов А и С десять прогонов эксперимента значимо не отличаются друг от друга по отклику Y.3) Фактор С также незначим (F3Kcn = 0,10 FT = 3,93). Следовательно, уровни фактора С (алгоритм вычисления оценок параметров модели Раша) значимо не отличаются друг от друга в среднем для всех уровней факторов А и В (всех величинах сдвига теста относительно выборки для всех десяти генераций данных).4) Взаимодействие АС незначимо (F3KCf7 = 0,02 FT = 2,31). Это означает, что эффект фактора А не зависит от того, на каком уровне находится фактор С в среднем для всех уровней фактора В. Таким образом, смещение оценки веро ятности правильного ответа относительно истинной вероятности Рист - Роц дляразличных величин сдвига теста относительно выборки не зависит от используемого алгоритма вычисления оценок.
Следовательно, все рассматриваемые факторы и их взаимодействие не являются значимыми. Смещение оценки вероятности правильного ответа относительно истинной вероятности не зависит от величины сдвига теста относительно выборки и от используемого алгоритма получения оценок 6 и р .
Исходные данные для обработки формируются аналогичным образом как в предыдущем параграфе. Отличие состоит в том, что откликом является точность оценивания смещения вероятностей ответов. Точность определялась на основе среднеквадратического отклонения смещения вероятностей ответов Роц относительно истинной вероятности Рист (табл. 3.23). Исследуемые факторы являются теми же и для обработки используется та же самая модель (3.4) представления экспериментальных данных.
Произведем интерпретацию полученных результатов дисперсионногоанализа. Значимость всех источников дисперсии проверяется при уровне значимости а = 0,05.1) Фактор А значим (F3Kcn= 4,21 Ртабл = 2,31). Это означает, что в среднем для всех уровней факторов В и С (всех десяти генераций данных, для двух алгоритмов получения параметров модели) уровни фактора А значимо отличаются друг от друга по показателю Y. Следовательно, точность оценивания смещения оценок вероятностей правильного ответа относительно истинной вероятности значимо зависит от величины сдвига теста относительно выборки. Соответствующие средние приведены в табл. 3.25. Рис. 3.12. Точность оценивания смещения вероятности правильного ответа Рист - Роц в среднем для обеих программ в зависимости от сдвига теста относительно выборки
Вертикальными линиями на рис. 3.12 отмечена ширина доверительного интервала, равная 0,002. Из этого рисунка видно, что точность оценивания смещения вероятности выше при сдвиге теста относительно выборки от 1,5 до 2,5 логитов и меньше при небольших величинах сдвига (от 0 до 1 логита).Для определения того, какие уровни фактора А отличаются друг от друга, в табл. 3.26 приведены результаты парных сравнений.
Полуширина 95%-го доверительного интервала для уровней равна 0,002, а для пар уровней (по методу множественных сравнений Шеффе) 0,006. Из табл. 3.26 следует, что точность оценивания значимо отличается для сдвигов в 0 и 2,5 логита. При этом с увеличением величины сдвига теста точность оцени вания смещения вероятности правильного ответа Рист - Роц увеличивается (всреднем для двух программ вычисления оценок).2) Фактор В незначим (F3Kcn= 1,67 FTa6jI = 1,97). Это означает, как и следовало ожидать, что в среднем для всех уровней факторов А и С десять прогонов эксперимента значимо не отличаются друг от друга по отклику Y.3) Фактор С также незначим (F3KCn = 0,47 FTa6jl = 3,93). Следовательно, уровни фактора С (алгоритм вычисления оценок параметров модели Раша) значимо не отличаются друг от друга в среднем для всех уровней факторов А и В (всех величинах сдвига теста относительно выборки для всех десяти генераций данных).4) Взаимодействие АС незначимо (F3Kcn = 0,06 Ртабл = 2,31). Это означает, что эффект фактора А не зависит от того, на каком уровне находится фактор С в среднем для всех уровней фактора В. Таким образом, точность оценивания смещения оценки вероятности правильного ответа относительно истинной вероятности Рист - Роц для различных величин сдвига теста относительно выборки не зависит от используемого алгоритма вычисления оценок. Соответствующие средние приведены в табл. 3.27.
Оценка эффективности разработанного банка тестовых заданий
Банк тестовых заданий разработан на основе интегративных тестов по предметному блоку "Информатика" для студентов всех пяти курсов факультета математики и информатики (12 групп). Тестирование прошли все 12 групп. Ниже представлены обобщенные характеристики качества разработанных тестов (табл. 4.4).
Из табл. 4.4 видно, что число неадекватных заданий варьирует от 1 до 6. Причем только в двух наборах тестовых заданий равно 6, в остальных наборах число неадекватных заданий не превышает 4, что вполне согласуется с выбранным уровнем значимости а = 0,05. Это свидетельствует о достаточно высоком качестве тестовых заданий.
При анализе качества тестов рассматриваются следующие показатели (табл. 4.4):- номер тестируемой группы;- минимальная трудность задания в тестовом наборе (в логитах);- максимальная трудность задания в тестовом наборе (в логитах);- средняя трудность тестовых заданий в тестовом наборе (алгоритм нахождения оценок параметров модели Раша построен так, что средняя трудность всех тестовых заданий равна 0);- стандартное отклонение средней трудности заданий;- статистика Хи-квадрат, характеризующая степень адекватности модели Раша результатам тестирования группы;- степени свободы статистики Хи-квадрат. Для проверки адекватности всех тестовых заданий модели Раша использовалась та же процедура, что и при проверке отдельного задания. Поскольку число подгрупп испытуемых равно 3, а число заданий - 50, то число степеней свободы равно 50х(3-1) = 100. В наборах тестовых заданий число исключаемых заданий варьируется от 1 до 3, соответственно число степеней свободы варьируется от 98 до 94;- уровень значимости статистики Хи-квадрат;- число исключенных заданий. Во всех наборах тестов при вычислении оценок параметров модели Раша исключены 11 заданий (все студенты ответили правильно) и 1 задание, на которое не ответил правильно ни один студент;- число неадекватных заданий в тестовом наборе. Неадекватными считаются те тестовые задания, для которых уровень значимости не превышает 0,05;- номера неадекватных тестовых заданий.
Из табл. 4.4 следует, что в тестовых наборах задания по трудности варьируются в диапазоне от -3,421 до +3,802. Стандартное отклонение для среднего значения трудности заданий в тестах однородно для всех тестов -варьируется от 0,752 до 1,162.
Модель Раша оказалась неадекватной только для набора тестовых заданий, которые использовались для тестирования студентов третьего курса -групп Зм1 и Зм2. Уровень значимости статистики Хи-квадрат равен 0,031 и 0,035 соответственно. Однако, как видно из последнего столбца таблицы, при тестировании этих групп неадекватными оказались разные задания. Так, притестировании группы Змі неадекватны задания 23, 34, 35 и 46, а при тестировании группы Зм2 - задания 17, 22, 24, 27, 28 и 38. Это позволяет надеяться, что при тестировании большей группы студентов этот тестовый набор будет адекватным.
Тестируемые группы студентов являются небольшими, следовательно, оценки трудности заданий, используемых для нескольких групп, варьируются в достаточно больших пределах. Поэтому важно оценить насколько близки друг к другу оценки трудности заданий, полученные при тестировании разных групп студентов.
Для сравнения близости оценок трудностей заданий при тестировании нескольких групп студентов используется корреляционный анализ. В табл. 4.5 приведены результаты корреляционного анализа полученных оценок трудностей для всех 12 групп.
Оказалось, что значимая корреляция между наборами оценок существует только для одних и тех же тестов, причем уровень значимости очень высок - менее 0,001 (гтабл = 0,45 при 48 степенях свободы и а = 0,001). Для разных тестов корреляции между оценками трудности заданий незначимы. Значимые коэффициенты корреляции отмечены полужирным курсивом. Так, на первом курсе использовался только один набор тестовых заданий для групп1ин, 1м1 и 1м2. Из табл. 4.8 видно, что соответствующие коэффициенты корреляции равны 0,798, 0,692 и 0,773. На втором курсе использовались два набора тестовых заданий - один для группы 2ин, второй набор - для групп 2м 1 и 2м2.
Из этой же таблицы следует, что оценки трудности заданий, полученные при тестировании группы 2ин, не коррелируют ни с каким другим набором оценок. Наборы же оценок, полученные при тестировании групп 2м 1 и 2м2, коррелируют, коэффициент корреляции равен 0,457. Аналогичные результаты получены для оценок трудностей заданий, которые использовались на третьем курсе (группы Зм1 и Зм2), на четвертом курсе (группы 4м 1 и 4м2) и на пятом курсе (группы 5м 1 и 5м2). Коэффициенты корреляции равны 0,462, 0,693 и 0,616 соответственно.
В целях иллюстрации на рис. 4.6-4.10 представлены совместные распределения уровня знаний студентов и трудности заданий для всех пяти курсов. Для наглядности уровень знаний студентов одного и того же курса и уровень трудности используемых для их тестирования заданий представлены на одних и тех же диаграммах. Из этих рисунков следует, что на всех пяти курсах средний уровень знаний студентов превышает средний уровень трудности заданий. Причем наибольшее превышение наблюдается на пятом курсе - 1,16 логита. Большое превышение наблюдается также на первом курсе - 0, 86 логита. Второй, третий и четвертый курс занимают промежуточное положение - соответственно 0,15, 0,30 и 0,84.Среднеквадратическое отклонение, характеризующее разброс уровней знаний студентов, на всех курсах примерно одно и то же - варьируется от 0,58 до 1,06.