Содержание к диссертации
Введение
1. Математическое моделирование тестирования 9
1.1. Математические модели Раша 9
1.2. Статистические критерии достоверности измерения 14
1.2.1. Базовая статистика — нормированные уклонения 14
1.2.2. Статистики согласия для испытуемых 16
2. Исследование статистик согласия 23
2.1. Общая методология исследования 23
2.1.1. Генерация модельных матриц и искажений 23
2.1.2. Моделирование по реальным прототипам 25
2.1.3. Конструирование распределения параметров модели 28
2.2. Исследование базовой статистики 30
2.2.1. Распределение нормированных уклонений 30
2.2.2. Причины особенностей распределения 35
2.2.3. Аппроксимация эмпирического распределения 41
2.3. Исследование других статистик 50
2.3.1. Эмпирические распределения статистик согласия 50
2.3.2. Эффективность статистических критериев 54
3. Технология оценки достоверности результатов тестирования 62
3.1. Оптимизация выбора критических значений 62
3.2. Композиционный критерий 66
3.3. Технология обработки данных тестирования 70
3.4. Программное обеспечение 73
3.5. Экспериментальная проверка 87
Заключение 93
- Статистические критерии достоверности измерения
- Исследование базовой статистики
- Исследование других статистик
- Технология обработки данных тестирования
Введение к работе
Актуальность темы исследования. Решение прикладных проблем и исследование естественнонаучных, социальных, экономических и технических объектов зачастую сводится к задаче измерения их латентных (скрытых от наблюдения) характеристик. Это измерение возможно только по данным тестирования (мониторинга). Полученная оценка латентной характеристики должна быть объективна, надёжна и достоверна. Поэтому актуальной является задача разработки специальных математических методов, позволяющих оценивать достоверность измерения латентных характеристик объектов.
Важным частным случаем является педагогическое тестирование. Для управления в сфере образования необходима объективная оценка качества подготовки лиц, освоивших образовательные программы. Это качество (уровень подготовленности) является латентной характеристикой и оценивается по данным тестирования с использованием заданий стандартизированной формы — контрольных измерительных материалов.
В отечественной и в западной науке предложены методы, позволяющие делать заключение о достоверности результатов тестирования. Однако, как было . показано на начальных этапах настоящего исследования, их эффективность недостаточна в случае массового тестирования (характерного, например, для единого государственного экзамена (ЕГЭ), где число испытуемых измеряется сотнями тысяч), поскольку в этом случае цена вопроса особенно велика, и требуется разработка более эффективных методов.
В силу присущих им преимуществ (объективности, возможности контроля точности измерения, метрического характера шкалы) наиболее обоснован выбор для решения данной задачи семейства математических моделей тестирования, предложенного датским учёным Георгом Рашем. В данном диссертационном исследовании используется политомическая модель Раша. В рамках этой модели западными специалистами предложен ряд статистических критериев для проверки гипотезы о достоверности или недостоверности результатов тестирования. Однако эффективность этих методов была недостаточно исследована для случая массового тестирования. Таким образом, задача исследовать имеющиеся методы оценки достоверности результатов тестирования, выбрать или сконструировать статистический критерий, достаточно эффективный для массового тестирования, разработать и реализовать технологию оценки достоверности результатов массового тестирования является актуальной.
Целью исследования является разработка и реализация в виде комплекса программ специальных математических методов и алгоритмов оценивания достоверности результатов массового тестирования на основе математической модели Раша.
Для достижения поставленной цели необходимо решить следующие задачи:
исследование и обоснованный выбор математических моделей, позволяющих оценивать достоверность результатов тестирования;
разработка математических методов и алгоритмов проверки соответствия экспериментальных данных математической модели для выявления в них случаев искажения, приводящего к недостоверности результатов измерения латентной характеристики;
развитие приближённых статистических методов для исследования математической модели результатов тестирования, как содержащих, так и не содержащих искажения;
—разработка, обоснование и тестирование эффективных методов и алгоритмов обработки результатов массового тестирования с применением ЭВМ;
их реализация в виде комплекса проблемно-ориентированных программ, пригодных как для прикладного использования, так и для проведения вычислительных экспериментов;
экспериментальная проверка разработанных методов и алгоритмов с использованием реальных данных ЕГЭ.
Объектом исследования являются массовое тестирование (мониторинг) и его математические модели в сфере образования, а также иных социальных, экономических, технических и естественнонаучных сферах деятельности.
Предметом исследования является достоверность результатов массового тестирования (мониторинга) в части оценивания латентных характеристик объектов для принятия решений в указанных сферах.
Методы исследования включают в себя:
методы теории моделирования и параметризации тестов, основанные на математической модели Г. Раша;
методы математической статистики, в частности, методы проверки статистических гипотез и методы аппроксимации и сглаживания эмпирических распределений;
методы математической теории принятия решений, в частности, методы оптимизации и оценивания рисков;
методы алгоритмизации и программной реализации математических моделей;
5) вычислительный эксперимент на реальных и модельных данных.
Научная новизна разработанных автором методов и алгоритмов оценки
достоверности результатов массового тестирования обусловлена следующими новыми решениями:
исследована эффективность ранее известных методов выявления недостоверных результатов измерения испытуемых для целей массового тестирования или мониторинга;
разработан композиционный статистический критерий для проверки гипотезы о достоверности результатов массового тестирования;
разработан метод оптимизации критических значений используемых статистик;
—разработана технология обработки данных массового тестирования (мониторинга) с целью выявления случаев недостоверного измерения;
— разработан комплекс программ для реализации указанных математических моделей, методов и алгоритмов, а также выполнения их эмпирической проверки в форме вычислительных экспериментов.
Практическая значимость результатов исследования заключается в разработке и реализации в виде комплекса программ конкретной технологии обработки данных массового тестирования (мониторинга), включая ЕГЭ, применимой для выявления случаев недостоверности его результатов.
Достоверность научных результатов обеспечивается постоянным, на каждом этапе исследования, контролем прецизионности используемых методов и процедур в соответствии с требованиями государственной системы обеспечения единства измерений, а также всесторонней эмпирической проверкой результатов сериями вычислительных экспериментов с использованием реальных данных ЕГЭ за прошлые годы. Все используемые методы на основе метрологических показателей (ошибка измерения, прецизионность, воспроизводимость, статистическая достаточность) признаны дающими достоверный результат на соответствующем задаче уровне значимости.
На защиту выносятся:
алгоритм формирования композиционного статистического критерия для проверки гипотезы о достоверности результатов массового тестирования;
метод оптимизации критических значений используемых статистик на специально конструируемых модельных данных;
технология обработки данных массового тестирования (мониторинга) с целью выявления случаев недостоверного измерения;
комплекс программ для реализации указанных моделей, методов и алгоритмов, в том числе для проведения вычислительных экспериментов.
Апробация результатов исследования и публикации. Основные результаты исследования были доложены на VIII Всероссийском симпозиуме по прикладной и промышленной математике (Сочи, РФ, 2007), Международной конференции «Моделирование и параметризация педагогических тестов» (Минск, Беларусь, 2007), Международной научно-методической конференции «Математика в ВУЗе» (Санкт-Петербург, 2007), VIII Всероссийской научно-методической конференции «Развитие тестовых технологий в России» (Москва, 2006). Автор участвовал в следующих научно-исследовательских проектах, связанных с темой исследования: «Выработка критериев аннулирования результатов отдельных испытуемых при проведении ЕГЭ и ЦТ» (Федеральный центр тестирования МО РФ, 2006); «Разработка структуры статистического анализа результатов ЕГЭ с целью обнаружения недостоверных результатов ЕГЭ» (Федеральный центр тестирования МО РФ, 2008). По теме диссертации опубликовано 10 статей.
Структура и объём диссертации. Диссертация состоит из введения, трёх глав и заключения, изложенных на 94 страницах, а также списка литературы и
приложений. В работе имеется 31 рисунок и 22 таблицы. Список литературы содержит 56 наименований.
Статистические критерии достоверности измерения
В классических работах по измерениям латентных характеристик испытуемых [54; 47-48; 10] в качестве средства оценить, насколько хорошо ожидаемые согласно модели Раша баллы воспроизводят реальные данные, вводится разность наблюдаемых и ожидаемых баллов, то есть остатки (residuals). Однако при этом отмечаются две проблемы: дисперсии остатков различны; сумма остатков по профилю испытуемого неинформативна с точки зрения возможного наличия в этом профиле искажений (она равна нулю в силу того, что в модели Раша сумма ожидаемых баллов совпадает с первичным баллом испытуемого: (1.1.3-4)). Для решения этих проблем используется стандартизация остатков делением их на соответствующие стандартные отклонения, что даёт нормированные уклонения т xni-M(xni) (1.2.1) где Х„І — балл, полученный испытуемым п с уровнем подготовленности вп за выполнение задания / с максимальным баллом В{ и трудностями шагов {д } 14 (/-0..Д), 3,0=0; M(x„J — математическое ожидание этого балла с учётом формулы вероятностей (1.1.2) в, М{хы) = к Р пЛ )Л) , (1-2.2) D( n) — его дисперсия в, D{xni) = 2 -М( л/))2 -р(Єи,{5/у}Д) . (1.2.3) Jfc=0 В работах [54; 56; 51] показано, что хотя случайная величина xni является дискретной, случайная величина уш может быть оценена как имеющая приблизительно стандартизованное нормальное распределение N(0; 1). В частности, в работе [51] проводится исследование этой величины на специально сконструированных модельных данных (только дихотомические задания; распределение трудностей заданий равномерное; распределение уровней подготовленности испытуемых стандартизованное нормальное). При этом отмечаются более толстые (по сравнению с N(0; 1)) хвосты распределения статистики (1.2.1), но делается вывод, что при некоторых условиях его можно приближённо считать стандартизованным нормальным. Сумма нормированных уклонений (1.2.1) не может служить показателем согласия профиля испытуемого с моделью или, напротив, его искажённости, так как нормированные уклонения могут иметь разный знак. В силу этого суммируются квадраты нормированных уклонений. При этом подчёркивается, что в силу того, что нормированные уклонения имеют приближенно распределение ЩО; 1), их квадраты приближенно распределены по у -закощ Пирсона [54] с одной степенью свободы (математическое ожидание 1, дисперсия 2). Так как квадраты нормированных уклонений имеют такое распределение только приближённо, то следует соблюдать определённую осторожность при использовании этого положения.
Причины несоответствия указанному теоретическому распределению могут быть различны [47]: данные могут не подходить модели; вероятности вычисляются на основе приближённых оценок параметров модели; xni как случайная величина дискретна, а не непрерывна. Одной из характеристик, обеспечивающих соответствие данных модели, является одномерность теста [45]. Под одномерностью теста будем понимать просто принципиальную возможность с помощью этого теста (неявно соответствующей ему генеральной совокупности заданий) оценить значение одной (скалярной) латентной характеристики. Многомерность теста (отсутствие одномерности) может сама по себе исказить оценки параметров модели Раша, что продемонстрировано, в частности, на модельных матрицах ответов [45]. Поэтому, отметив, что рассматриваемые в данной работе методы выявления искажений могут быть использованы и для совершенствования х тестовых материалов как измерительного инструмента, мы в дальнейшем будем предполагать, что тест одномерен, и данные соответствуют модели. Исследование теста с точки зрения заданий не входит в задачу данной работы. Тогда, если квадраты нормированных уклонений имеют приблизительно -распределение с одной степенью свободы, то их сумма по всему профилю испытуемого имеет распределение, приблизительно соответствующее % -распределению с / степенями свободы, где /— количество заданий в тесте (и, следовательно, баллов в профиле испытуемого). Оценивать соответствие данных его модели с помощью подобного рода статистик согласия предлагал ещё Г. Раш в своей основополагающей книге [44]. 1.2.2. Статистики согласия для испытуемых Статистики согласия описанного типа классифицируются по трём типам [47]: общие, межгрупповые и внутригрупповые. Общая статистика согласия для испытуемого вычисляется на основе всего его профиля, межгругаювая учитывает какие-либо характеристики заданий, разбивающие их на группы, а внутригрупповые вычисляются не по всему профилю, а только по его части, соответствующей группе заданий (в литературе чаще рассматриваются аналогичные статистики согласия для заданий).
Для снижения чувствительности статистик к отдельным неожиданным ответам вводятся их взвешенные версии, предусматривающие суммирование с весами, отличными от единицы и определяемыми информационной функцией заданий или их дисперсией. Кроме того, у статистик согласия любого типа, включая взвешенные, имеются стандартизованные версии, получаемые путём аппроксимации распределения. В целом в литературе предлагаются следующие статистики согласия, потенциально позволяющие определять, содержит ли профиль испытуемого искажения. Статистика для испытуемого п, вычисляемая по формуле [56] ип=\І У2пі , (1.2.4) - і=і гДРУт — нормированные уклонения (1.2.1), /— количество заданий в тесте, называется общей статистикой согласия. В силу того, что, как было сказано в предыдущем параграфе, входящая в формулу (1.2.4) сумма имеет приближенно теоретическое -распределение с / степенями свободы, то сама статистика U„ имеет F-распределение Фишера-Снедекора (оно же распределение дисперсионного отношения) с числом степеней свободы числителя / и бесконечным числом степеней свободы знаменателя, то есть F(I;co) ([2]). В [56] предлагается уменьшить число степеней свободы числителя на 1 в связи с потерей в степенях свободы из-за использования одного и того же х„, для оценки как параметра задания, так и параметра испытуемого. Однако некоторые исследователи полагают, что количество степеней свободы скорее всё-таки равно / [48]. Этот вопрос будет также рассмотрен в главе 2. Согласно [56] статистика U„ имеет математическое ожидание 1 и дисперсию где D(xni) — дисперсия (1.2.3), а С(хт) — соответствующий четвёртый момент распределения в, Для стандартизации распределения статистики F(I, оо), может использоваться логарифмическое преобразование, имеющее вид [54; 48] tl(U) = (ln(U) + U l) , (1.2.5) где U — статистика, / — количество заданий в тесте, или преобразование кубического корня [45] и) т-1)-Ш)+: (LZ6) где U — статистика, a D(U) — её дисперсия (вычисляемая для каждой статистики различно). Статистика t(U„), получаемая из общей статистики согласия (1.2.4) преобразованием (1.2.5) или, чаще, преобразованием (1.2.6), назьшается стандартизованной общей статистикой согласия. В силу того, что это результат аппроксимации эмпирического распределения теоретическим стандартизованным нормальным распределением, её математическое ожидание 0 и дисперсия 1.
Исследование базовой статистики
В основе общей статистики согласия и генетически связанных с нею статистик, описанных в пункте 1.3.2, лежат нормированные уклонения (1,3,1). Как было указано выше, важно определить, имеет ли эта базовая статистика приближённо распределение N(0;1), и насколько грубым или точным является это приближение. В таблице 2.2.1 приводятся средние значения нормированных уклонений на модельных данных без искажений. Строка «среднеквадратическое отклонение» показывает прецизионность данного вычислительного эксперимента: её можно признать высокой. Средние по матрице значения нормированных уклонений действительно (что соответствует предположению о близости её распределения N(0; 1)) близки к нулю, хотя для разных предметов более или менее закономерно различаются. Выполнена оценка толщины хвостов распределения, отсекаемых разными пороговыми значениями. Эти данные приведены в таблице 2.2.2. Поскольку рассматриваются модельные матрицы, не содержащие искажений, то эти величины могут быть интерпретированы как частоты «ложного срабатывания». Данные таблицы 2.2.2 однозначно показывают закономерное отличие эмпирического распределения нормированных уклонений от теоретического распределения Щ0; 1). Это отличие сводится к асимметричному увеличению хвостов распределения за счёт понижения его вершины. При этом дисперсия, определяемая различиями между предметами-прототипами (строка «среднеквадратическое отклонение» таблицы 2.2.2) уже существенна (среднеквадратическое отклонение достигает 3%). Это позволяет предположить, что какие-либо особенности данных-прототипов проявляются в выявленных здесь отклонениях эмпирического распределения нормированных уклонений от теоретического распределения N(0; 1). Следовательно, вопрос требует ещё более детального исследования, что будет описано ниже. Здесь также обнаруживаются существенные отличия эмпирических распределений от теоретического распределения N(0; 1), у которого и асимметрия, и эксцесс должны быть равны нулю. Для более детального изучения отличий эмпирического распределения нормированных уклонений от теоретического распределения и зависимости этих отличий от параметров данных-прототипов рассмотрим гистограммы распределения нормированных уклонений.
Наиболее типичная такая гистограмма показана на рисунке 2.2.1 (география), а наименее типичная — на рисунке 2.2.2 (математика). Мелкими точками показан характер рассеяния значений статистики (группировка с шагом 0,01). Крупными точками, соединёнными толстой линией, показан характер эмпирического распределения. Это гистограмма, где данные сгруппированы в K=\,12 Nm (2.2.1) групп (где N—объём выборки), что согласно [3] считается оптимальным для построения гистограммы. Тонкой линией показан график функции плотности распределения ІУҐ 9; 1). Помимо выявленного ранее отличия эмпирического распределения от теоретического распределения (более толстых хвостов), видим также дефект вершины кривой, а именно некую «щель». Однако общие очертания кривой эмпирического распределения на глаз кажутся достаточно хорошо соответствующими кривой теоретического распределения. В связи с этим было решено проверить с помощью х2-кРитеРия гипотезу о соответствии этого распределения теоретическому N(0; 1). Видно, что при значительном сглаживании (небольшом количестве групп) распределение признаётся нормальным. Очевидно, что при таком сглаживании замеченная нами «щель» нивелируется. Однако при меньшем сглаживании, в том числе оптимальном, гипотеза о нормальности распределения нормированных уклонений отвергается. Для других предметов-прототипов ситуация аналогична. Сама по себе «щель» в вершине кривой эмпирического распределения (то есть его бимодальность) с точки зрения решаемых данным исследованием задач не так уж важна. Важнее наличие у распределения существенно более толстых, чем у нормального распределения, хвостов. Однако представляется правдоподобным, что оба дефекта, — и «щель», и хвосты, — порождаются одним и тем же комплексом причин. И вполне возможно, что эти причины имманентны (в рамках рассматриваемой ситуации). В любом случае, независимо от характера ещё не исследованных причин, существенное для решаемой нами задачи отклонение эмпирического распределения базовой статистики (нормированных уклонений) от стандартизованного нормального распределения можно считать доказанным. Но в ряде случаев это распределение приближённо (при допускающем сглаживание подходе) всё-таки можно считать стандартизованным нормальным. Различия между формой эмпирического распределения нормированных уклонений для разных предметов чётко соответствуют некоторым особенностям предметов-прототипов.
Требует проверки предположение, что причиной являются особенности распределения испытуемых по уровню их подготовленности и заданий по уровню их трудности. 2.2.2. Причины особенностей распределения Для исследования зависимости особенностей эмпирического распределения нормированных уклонений от особенностей распределения исходных данных было решено использовать описанное в пункте 2.1.3 моделирование матриц ответов по прототипам с точно известным распределением параметров. Таблица 2.2.5 содержит результаты, аналогичные данным таблицы 2.2.2, но полученные на модельных матрицах, указанных в таблице 2.1.4. Среднеквадратические отклонения, приведённые в нижней части таблицы 2.2.5, позволяют судить о прецизионности этой серии вычислительных экспериментов: она также высока. Эмпирическое распределение в случаях, когда совокупность уровней подготовленности испытуемых не смещена относительно совокупности трудностей заданий (для краткости будем говорить, что распределения концентрированы (от латинского concentrum = «с совпадением центров»), как в ННООО, НР000 и 1ST) лучше соответствует теоретическому распределению N(0; 1). Смещение испытуемых относительно заданий, очевидно, влияет на искажение функции плотности распределения. Аналогично таблице 2.2.3, в таблице 2.2.6 приводятся значения асимметрии и эксцесса для нормированного уклонения на рассматриваемых модельных данных. Смещение испытуемых по шкале логитов влево относительно трудностей заданий приводит к положительной асимметрии, а смещение вправо — к отрицательной. В целом значения асимметрии близки по величине приведённым в таблице 2.2.3 данным, то есть коэффициент асимметрии можно использовать для получения дополнительной информации о результатах тестирования. А коэффициент эксцесса в обоих случаях имеет значительный разброс, в связи с чем интерпретация его величины затруднительна и, похоже, его не следует использовать при исследовании результатов тестирования. Для сравнения с рисунками 2.2.1-2 на рисунке 2.2.3 показана гистограмма распределения для одной из серий модельных матриц (типичная). Конкретно, это серия НН+05, то есть распределения и испытуемых, и заданий нормальные, а совокупность испытуемых смещена относительно совокупности заданий на +0,5 логита.
Исследование других статистик
Выполнено исследование на модельных матрицах всех описанных в параграфе 2.1 типов всех перечисленных в пункте 1.2.2 статистик согласия. Поскольку полученные выводы одинаковы, здесь они приводятся на типичных примерах. Так, на рисунке 2.3.1 показано эмпирическое распределение значений общей статистики согласия Un (1.2.4) для предмета-прототипа география, модельные матрицы без искажений. Мелкими точками показан характер рассеяния значений статистики (группировка с 0,01). Крупными точками, соединёнными толстой линией, показан характер эмпирического распределения. Это гистограмма, где данные сгруппированы в «оптимальное» количество групп гистограммы (2.2.1), равное 15. Тонкой линией показано теоретическое распределение F(I, со). Дефектом, как и в случае с нормированными уклонениями (параграф 2.2), является толстый хвост, что особенно важно для решения вопроса о выборе критического значения. Для стандартизованных версий статистик согласия, как это видно из таблицы 2.3.2, гипотеза о соответствии распределению N(0; 1), как правило, принимается при оптимальной группировке. Однако само эмпирическое распределение, показанное на рисунке 2.3.2 (результаты исследования по у?-критерию — в таблице 2.3.2) на примере стандартизованной взвешенной статистики согласия (предмет-прототип география, без искажений, как и везде в данной работе приводится типичный пример), соответствует стандартизованному нормальному распределению N(0; 1) только приближённо. Аналогично обстоят дела с распределением межгрупповых статистик согласия. Это иллюстрируется на примере межгрупповой статистики согласия Vn (1.2.8) с делением на две группы по типу задания (в одной группе задания типа А, в другой — типов В и С). Характеризующая распределение сглаженная гистограмма в сравнении с графиком функции плотности теоретического распределения показана на рисунке 2.3.3, результаты исследования по -критерию приведены в таблице 2.3.3. Таким образом, распределения статистик согласия соответствуют своим теоретическим аналогам в той же мере и с теми же оговорками, что и их базовая статистика (нормированные уклонения).
При анализе этого, соответствия по -критерию возникает иллюзия, что стандартизованные версии статистик в этом отношении лучше, но в ходе описанного ниже дальнейшего исследования будет показано, что это не так. В связи с обнаруженным, существенным для задачи оценки достоверности измерения испытуемых при массовом тестировании, отличием эмпирических распределений статистик согласия от теоретических распределений выбор критических значений для них на основании квантилей теоретического распределения оказывается необоснованным. Поэтому в ходе дальнейшего исследования эффективности основанных на статистиках согласия статистических критериев особый упор сделан на выявление зависимости их эффективности от выбора критического значения. Известно, что эффективность статистики согласия определяется степенью, с которой она способна обнаруживать искажения в измерении, в данном случае, испытуемых [41]. То есть эффективность подразумевает чувствительность к надёжно обнаруживаемым искажениям требуемых типов и нечувствительность к иным условиям и обстоятельствам выполнения теста. Недостаток чувствительности к искажениям приводит к пропуску содержащего искажения профиля, что будем называть ошибкой первого рода. Излишняя чувствительность к посторонним обстоятельствам приводит к «ложному срабатыванию» критерия, отмечающего как искажённый профиль испытуемого, искажений не содержащего. Это будем называть ошибкой второго рода. Таким образом, эффективность статистического критерия выявления случаев недостоверного измерения испытуемого соответствует низким вероятностям совершения им ошибок первого и второго рода. Благодаря тому, что используются специально сконструированные модельные данные, в которых про каждый профиль испытуемого известно, содержит ли он искажения, и если да, то какие, мы можем оценить вероятности совершения ошибок первого и второго родов. В таблице 2.3.4 для некоторых статистик согласия даны средние значения и среднеквадратические отклонения (по 10 модельным матрицам), отдельно по содержащей искажения части матрицы и отдельно по не содержащей, для разного количества добавленных искажений. Предмет прототип география, пример типичный. По данным таблицы 2.3.4 можно сделать два заключения. Во-первых, средние значения статистик на искажённых профилях в среднем больше отклоняются от теоретического математического ожидания значения этих статистик. Во-вторых, при наличии искажений и в значениях статистик согласия на «правильной» части матрицы проявляются некоторые отклонения от математического ожидания, большие, чем в матрице без искажений. Это объясняется тем, что наличие искажений в матрице изменяет оценки уровней трудности всех заданий теста, а, следовательно, и оценки уровней подготовленности всех испытуемых, даже тех, профили которых не содержат искажений. Соответственно, чем больше искажений в матрице, тем с меньшей эффективностью статистические критерии, основанные на статистиках согласия, будут их обнаруживать. На рисунке 2.3.4 показан типичный пример зависимости от используемого критического значения для частот совершения ошибок обоего рода. Это сделано для критерия на основе стандартизованной (1.2.6) взвешенной (1.2.7) статистики согласия, для предмета-прототипа география с 5% искажений.
Данная статистика на предыдущем этапе исследования показала наилучшее среди рассмотренных статистик согласия соответствие теоретическому распределению. Здесь эффективность достаточно высока: при критическом значении 2,15 вероятности обеих ошибок малы (порядка 0,01). Всё-таки оптимальное критическое значение отличается от соответствующего теоретическому распределению значения 2 (и это типично для всех статистик). На рисунке 2.3.5 для сравнения показана аналогичная зависимость для того же примера, но при наличии в матрице 15% искажённых профилей, а на рисунке 2.3.6 — при наличии 25% искажённых профилей. Очевидны два обстоятельства. Во-первых, при увеличении количества искажений эффективность статистического критерия снижается: при 15% искажений невозможно вероятности обеих ошибок одновременно сделать меньше 0,05, а при 25% — почти 0,1, что уже недопустимо при массовом тестировании. Во-вторых, оптимальное критическое значение, как бы его ни определять, не соответствует теоретическому значению 2. Таким образом, даже наилучшая с точки зрения соответствия эмпирического и теоретического распределения статистика недостаточно эффективна при наличии в матрице ответов сколько-нибудь значительного количества искажений. И, как и было нами предсказано, её соответствие теоретическому распределению неустойчиво именно относительно выявляемых искажений. В зарубежной литературе для оценки эффективности статистик согласия используются также ROC-кривые [35]. Это график эмпирического соотношения величин р (по оси абсцисс) и 1-а (по оси ординат), где а — вероятность (частота) совершения ошибки первого рода, ар — вероятность (частота) совершения ошибки второго рода. Критическое значение играет роль неявного параметра (каждому конкретному его значению соответствует точка на кривой; это соответствие однозначно, но не линейно). Площадь под ROC-кривой соответствует степени, в которой использование данной статистики минимизирует вероятности ошибок первого и второго рода. Понимаемая так эффективность статистического критерия тем больше, чем ближе ROC-кривая к прямому углу. На рисунке 2.3.7 приводится ROC-кривая для того же случая, что и на рисунке 2.3.6. Однако в данном исследовании ROC-кривые оказались недостаточно удобны именно потому, что не позволяют наглядно обнаружить оптимальное критическое значение данной статистики, хотя и позволяют в той или иной степени сравнивать эффективность разных статистик. Было принято решение разработать более точный метод оценки зависимости эффективности статистического критерия от выбора критического значения.
Технология обработки данных тестирования
Сочетая два разработанных в ходе настоящего диссертационного исследования математических метода (композиционный статистический критерий и метод оптимизации критических значений), построен алгоритм выявления случаев недостоверного измерения испытуемых при массовом тестировании. Этот алгоритм состоит в следующем. 1. На основе реальных результатов тестирования описанным выше методом (2.1) генерируются модельные аналоги с заданным количеством искажений: в качестве параметров модели Раша используются полученные на реальных данных их оценки. 2. По полученным модельным матрицам ответов оцениваются значения параметров модели Раша. 3. Для реальных результатов тестирования и для всех модельных матриц, с учётом результатов оценивания параметров модели Раша, вычисляются значения всех статистик согласия для каждого испытуемого. Попутно при исследовании распределения нормированных уклонений реальных данных можно получить предварительный прогноз возможного в них количества искажений (в силу зависимости характера распределения этой статистики от количества искажённых профилей). 4. На модельных данных выполняется оптимизация критических значений всех статистик. 5. С использованием полученной оптимальной схемы вычисляются значения композиционной статистики (3.2.1). 6. Аналогично п. 4 выполняется оптимизация критического значения композиционной статистики. 7. По композиционному критерию, с учётом полученных на модельных данных сведений о точности измерения, для каждого реального испытуемого принимается решение: признать результаты его тестирования достоверными или недостоверными. Схематически (с учётом требований [6]) алгоритм представлен на рисунке 3.3.1. Важно подчеркнуть, что при обработке результатов массового тестирования все перечисленные действия автоматизированы, для чего специально разработан комплекс программ (он описан ниже в параграфе 3.4). Одной из программ на основании реальных данных тестирования генерируется необходимое количество модельных матриц, воспроизводящих такое же распределение испытуемых по уровню подготовленности и заданий по уровню трудности, но содержащих 0, 5%, 10% и т.д. искажений типа списывания / подлога. Другой программой по реальной матрице и всем модельным матрицам вычисляются значения всех статистик согласия для каждого испытуемого.
Попутно появляется возможность путём сравнения распределения нормированных уклонений на реальной матрице ответов с их распределением на модельных матрицах получить предварительный прогноз общего количества случаев искажения в реальных результатах тестирования. Далее по модельным данным выбираются оптимальные критические значения для всех статистик (и может произойти отсев статистик, показывающих недостаточную эффективность). Все эти статистики сводятся в единую композиционную статистику (3.2.1), и для неё аналогичным образом выбирается оптимальное критическое значение. Построенная схема с помощью той же программы применяется к реальным данным тестирования, для каждого испытуемого проверяется композиционный критерий и принимается решение: отмечается ли профиль этого испытуемого как подозреваемый на наличие искажений, приводящих к недостоверности его измерения. 3.41 Программное обеспечение Для оценки достоверности результатов тестирования; а также для выполнения эмпирических исследований в форме вычислительных экспериментов, разработан8 комплекс специализированных программ. В него входят: - компонент, обеспечивающий генерацию модельных матриц всех требуемых для исследования- и для реализации разработанного здесь алгоритма типов (программа ModAir); - компонент, осуществляющий вычисление значений? всех статистик согласия1 для каждого испытуемого, формирование композиционного критерия, а также определение частот ошибок первого і и второго рода на модельных данных и? построение функции суммарных потерь для/ оптимизации критических значений (программа AIR). Все программы реализованы в виде приложений» операционной системы Windows и написаны на языке Object Pascal в системе программирования Delphi 7. Выбор этого инструментального средства мотивированш [29]. Программа ModAir «Генераторі результатов тестирования на основе модели Раша» предназначена для генерации матриц ответов в форме, пригодной для последующей обработки, с произвольным заданием таких параметров модели, как: - количество заданий в тесте; - их распределение по типам А, Ви С; - максимальный балл за каждое задание; - уровни трудности заданий; - характер распределения заданий по трудностям; - уровни подготовленности испытуемых; - характер распределения испытуемых по уровню подготовленности; - количество добавляемых искажений; - параметры добавляемых искажений. Программа ModAir получает данные об уровнях подготовленности каждого испытуемого и об уровнях трудности каждого задания теста из файлов специального вида. Эти файлы являются вспомогательными при работе программы AIR, поэтому для краткости именуются аіг-файлами. Но они аналогичны файлам, генерируемым программой Winsteps (http://www.winsteps.com, а именно Output Tables 3.2 и 18), чтобы при работе с ModAir можно было использовать оценки параметров тестирования, полученные с помощью Winsteps. Интерфейс программы ModAir, показанный на рисунке 3.4.1, позволяет пользователю задавать параметры как «хорошей», так и «плохой» частей модельной матрицы ответов. конструируются особой подсистемой, о чём будет рассказано ниже. Их выбор осуществляется пользователем после нажатия кнопки «Выбор файлов». Программа считывает из файлов оценки уровней подготовленности испытуемых, оценки уровней трудности заданий и сведения о типе и обозначении каждого задания. После этого на экране появляются сведения о структуре теста. Кнопка «Сформировать модельные результаты тестирования» становится активна, то есть программа готова генерировать модельные матрицы ответов.
На основе одного загруженного в программу прототипа можно сгенерировать любое количество модельных матриц. Второй раздел интерфейса позволяет задать параметры добавляемых профилей с искажениями, отдельно для списывания / подлога, отдельно для угадывания (в настоящей работе моделирование угадывания не используется). Во-первых, надо выбрать количество добавляемых профилей. Это количество определяется как просто числом, так и в процентах к общему (включая случаи искажения) количеству виртуальных испытуемых. Например, если в матрице-прототипе имелось 655 строк, то для того, чтобы в генерируемой модельной матрице искажения составляли 5%, надо добавить 35 искажённых профилей (35 составляет 5% от (655+35)=690). Если требуется моделировать данные без искажений, количество добавляемых профилей указывается равное нулю. Для виртуальных испытуемых со списыванием / подлогом указываются также параметры, позволяющие варьировать значительность вносимых искажений. Пользователь указывает, каковы были «истинные» уровни подготовленности как у самих «списывающих» виртуальных испытуемых, так и у того «лица», от которого путём списывания или подлога они получили часть ответов. Кроме того, определяется, сколько именно последних заданий в тесте подверглось списыванию / подлогу. После нажатия кнопки «Сформировать модельные результаты тестирования» генерируется матрица ответов и сохраняется в файле с указанным пользователем именем. Перед матрицей ответов в этом файле помещаются требуемые форматом входных файлов программы Winsteps строки с параметрами TITLE, NAME1, ITEM1, N1, XWIDE, CODES и GROUPS, а также обозначения заданий (включающие литеру типа задания А, В или С и порядковый номер). Пример дан в приложении А. Первая часть модельной матрицы ответов, обязательная, состоит из профилей виртуальных испытуемых, генерируемых в соответствии с политомической моделью Раша. Формулу (1.1.2) можно записать в виде р{в„,Щ},к)= в"т где „Да) = ехр(йв„-Х8,у), (3.4.1) 1=0 9п — уровень подготовленности испытуемого номер п, а ди — трудность выполнения шага j в задании / (следует помнить, что д{а=0).