Введение к работе
Актуальность темы исследования. В настоящее время тестирование активно используется для получения информации о результатах той или иной деятельности в самых разных областях - в образовании, управлении, экономике, медицине и т.п., когда имеется ряд вопросов (или показателей), по совокупности ответов на которые (или по совокупности значений которых) требуется сделать вывод о качестве, эффективности или иных параметрах контролируемого процесса. Во всех подобных случаях ставится задача измерения латентных (скрытых от непосредственного наблюдения) параметров. Средством измерения выступает специально разработанная система измерителей (заданий, показателей, критериев и т.д.).
Применительно к педагогическому тестированию средством измерения является педагогический тест; латентными параметрами – уровни подготовленности участников тестирования и параметры, характеризующие трудность заданий теста. Исходной информацией является матрица ответов, которая содержит баллы всех участников тестирования по всем заданиям теста.
Основной целью современной теории тестирования (Item Response Theory (IRT) в англоязычной литературе, Теория моделирования и параметризации тестов (ТМПТ) – в русскоязычной), зародившейся в 60-х годах прошлого века, является разработка математической модели процесса тестирования, параметрами которой, подлежащими определению, служат характеристики участников тестирования и самого теста.
В настоящее время известно довольно много различных математических моделей ТМПТ. Среди них отдельное место занимают модели Г. Раша, обладающие целым рядом существенных преимуществ по сравнению с другими моделями ТМПТ. В основе этих моделей лежат принципы, впервые изложенные в работах Георга Раша, положивших начало отдельному направлению в современной теории тестирования. Именно эти модели являются объектом исследования данной диссертационной работы.
Однако все преимущества моделей Раша имеют место лишь в том случае, если эмпирические данные тестирования адекватны используемой модели измерения. Для исследования адекватности и идентификации заданий, не согласующихся с моделью измерения, в рамках моделей Раша наибольшее развитие в отечественной и зарубежной науке получили два подхода. Однако, как было показано на начальных этапах настоящего исследования, оба подхода обладают серьезными недостатками и не универсальны. Основной проблемой является проблема выбора критических значений используемых статистик, которая в настоящее время не имеет удовлетворительного решения.
Другой важной проблемой при математическом моделировании теста является исследование эффективности его заданий. Различные задания (даже с одинаковым числом шагов и даже одного уровня трудности) могут по-разному оценивать одних и тех же испытуемых, вкладывая по-разному в информацию об оценке их уровня подготовленности. Далее, одно и то же задание может быть эффективным для измерения одной группы испытуемых и бесполезным для измерения другой группы.
Таким образом, задача разработки надежных методов идентификации заданий, не согласующихся с моделью измерения; разработки и программной реализации технологии идентификации заданий, не находящихся в согласии с моделью измерения, а также выявления факторов, определяющих эффективность заданий, является актуальной.
Целью диссертационного исследования является разработка и программная реализация специальных математических методов и алгоритмов идентификации заданий, не согласующихся с моделью измерения, а также исследование эффективности тестовых заданий.
Для достижения поставленной цели необходимо решить следующие задачи:
— сравнительное исследование моделей современной теории тестирования с целью выбора моделей, позволяющих осуществлять объективные измерения;
— исследование существующих методов исследования адекватности эмпирических данных используемой модели измерения в рамках моделей Раша;
— разработка метода построения интервальных оценок статистик согласия и исследование возможностей использования указанных интервальных оценок для идентификации заданий, не находящихся в согласии с моделью измерения;
— исследование свойств характеристической функции политомического задания и возможностей ее применения для исследования адекватности эмпирических данных модели измерения;
— исследование свойств информационной функции политомического задания и возможностей ее применения для исследования эффективности заданий;
— развитие статистических методов для исследования математической модели результатов тестирования, как содержащих, так и не содержащих искажения;
— разработка методики исследований и моделей экспериментов методами имитационного моделирования в рамках моделей Раша;
— реализация разработанных алгоритмов и методов в виде комплекса программ, пригодного как для прикладного использования, так и для проведения вычислительных экспериментов;
— экспериментальная проверка разработанных методов и алгоритмов с использованием имитационного моделирования и реальных данных массового тестирования.
Объектом исследования являются математические модели измерения латентных переменных в сфере образования, а также в иных социальных, экономических и технических сферах.
Предметом исследования является адекватность эмпирических данных массового тестирования используемой модели измерения, а также эффективность тестовых заданий для измерения латентных характеристик участников тестирования.
Методы исследования. Основные результаты диссертационной работы получены с использованием методов теории моделирования и параметризации тестов; методов математической статистики; численных методов; методов алгоритмизации и программной реализации математических моделей; имитационного моделирования и вычислительного эксперимента на реальных и модельных данных.
Научная новизна исследования состоит в следующем:
— разработаны новые численные методы проверки адекватности математической модели Раша;
— на основе указанных методов разработана технология идентификации заданий, не находящихся в согласии с моделью измерения;
— исследованы свойства характеристической и информационной функций политомического задания и зависимость эффективности задания от трудностей его шагов;
—разработан комплекс программ для реализации указанных процедур, методов и алгоритмов, а также выполнения их эмпирической проверки в форме вычислительных экспериментов.
Практическая значимость результатов исследования заключается в разработке и реализации в виде комплекса программ конкретных технологий обработки данных массового тестирования с целью идентификации заданий, не находящихся в согласии с используемой моделью измерения.
На защиту выносятся:
1) метод построения интервальных оценок статистик согласия;
2) технология идентификации заданий, не находящихся в согласии с моделью измерения;
3) результаты исследования свойств характеристической и информационной функций политомического задания и зависимости эффективности задания от трудностей его шагов;
4) усовершенствованный метод оценивания согласия с моделью через близость теоретической и эмпирической характеристических кривых;
5) комплекс программ для реализации указанных методов и технологий, а также проведения вычислительных экспериментов.
Апробация результатов исследования и публикации. Основные результаты исследования были доложены на XXI Международной научно-методической конференции «Математика в вузе» (Санкт-Петербург, 2009); международной научно-практической конференции «Новые информационные технологии в образовании» (Екатеринбург, 2011); обсуждались на семинарах «A Nonlinear Mixed Model Framework for Item Response Theory» (Бельгия, 2009) и «Use of Explanatory Item Response Theory Models» (Нидерланды, 2011). По теме диссертации опубликовано 6 работ, в том числе две статьи в журналах, рекомендуемых ВАК, и свидетельство о государственной регистрации программы для ЭВМ.
Структура и объём диссертации. Диссертация состоит из введения, четырех глав и заключения, изложенных на 116 страницах, а также списка литературы и приложения. В работе имеется 41 рисунок и 27 таблиц. Список литературы содержит 66 наименований.