Содержание к диссертации
Введение
Глава I. Элементы нормативной системы проектирования тестовых заданий 8
1.1. Исходные посылки 8
1.2. Стратификация тестовых заданий и тестологическая эпистемология 13
1.3. Тестовая ситуация 22
1.4. Краткое тестовое утверждение 33
1.5. Гармонично целостное тестовое утверждение 41
1.6. Заключение 51
Глава II. Трудность тестового утверждения и оценка результатов тестирования 53
2.1. Исходные посылки 53
2.2. Оценка трудности тестового задания 59
2.3. Шкалирование при анализе дидактической информации 66
2.4. Модели оценивания и методы обработки результатов тестирования 72
2.5. Заключение 93
Глава III. Интегральная оценка качества тестового утверждения 94
3.1. Исходные посылки 94
3.2. Шкалирование классификаторов 103
3.3. Комплексная оценка качества тестового утверждения 117
3.4. Интегральная оценка качества тестового утверждения 125
3.5. Заключение 129
Глава IV. Апробация тестовых материалов 130
4.1. Методология апробации программно-дидактических тестовых материалов 130
4.2. Обзор существующих методов оценки качества тестовых материалов 140
4.3. Методики по апробации программно-дидактических тестовых материалов. Планирование экспериментов и проведение научных опытов 155
4.4. Заключение 167
Общие результаты и выводы 169
Литература
- Стратификация тестовых заданий и тестологическая эпистемология
- Шкалирование при анализе дидактической информации
- Комплексная оценка качества тестового утверждения
- Методики по апробации программно-дидактических тестовых материалов. Планирование экспериментов и проведение научных опытов
Введение к работе
Актуальность работы. Одной из центральных проблем в сфере образования является объективная и технологичная оценка качества обученное субъектов в условиях проведения массовых проверок, основанных на процедурах компьютерного тестирования. С этой точки зрения создание качественных тестовых материалов предстает как культурно значимый проект, отраженный в Концепции модернизации Российского образования на период до 2010 года, принятой Минобразованием РФ (приказ МО РФ №393 от 11.02.02).
Для успешного решения данной задачи необходимо объяснить как устроены те «фильтры», которые позволяют субъекту проектировать тестовые утверждения заданного уровня качества, как происходит установление аксиом и выдвижение научных гипотез о закономерных связях процессов мышления в тестологии. До сих пор не так много исследователей подходит вплотную к решению этой задачи. Многие разработчики тестовых материалов до сих пор считают, что эта проблематика не является актуальной, поскольку ее решение будет ограничивать идею формирования личного содержания тестовых утверждений. Однако деятельность при конструировании тестовых утверждений без учета правил - источник создания псевдотестов.
Создание системы методологических правил проектирования гармонично целостных композиций тестовых утверждений способно стимулировать разработку корректных тестовых утверждений, но этого еще не достаточно для того, чтобы применять их в практической деятельности. Необходимо еще установить тестологические характеристики каждой тестовой ситуации. Господствующая ныне в теории тестов логика тождества - в отрыве от логики аналогий - не годится для того, чтобы объяснить и понять механизм оценки качества тестовых заданий как многомерных
4 объектов нечисловой природы. Эта актуальная задача также решается автором в настоящей диссертационной работе.
Целью данной диссертационной работы является разработка концептуальных правил проектирования и методов оценки качества тестовых заданий, с применением правдоподобных рассуждений, статистики качеств и теории информации.
Задачи исследования. В соответствии с поставленной целью необходимо решить следующие задачи:
провести критический анализ применения в тестологии различных форм мышления;
разработать систему методологических правил конструирования тестовых заданий;
создать модели и алгоритмы интегративной оценки качества тестовых утверждений на основе топометрик статистики качеств;
решить практические задачи проведения апробации тестовых суждений;
Объектом исследования является область теоретической информатики, связанная с культурой семантики логичных и логических рассуждений, зачастую имеющих неформальных вид, и создание аналитических моделей оценки качества тестовых заданий.
Методы исследования. Для решения поставленных задач проводится критический анализ общей семантики форм мышления и используется аппарат как параметрической, так и непараметрической статистики. Разработка программного обеспечения для реализации алгоритмов проведена в среде Visual Basic 6.
Методологической основой исследования являются работы в области теории компьютерного тестирования, посвященные культуре мышления и редуцирования правил проектирования тестовых материалов, а также работы по анализу качества многофакторных объектов произвольной природы
5 (труды А.И. Субетто, Ю.А. Петрова, B.C. Аванесова, В.И. Васильева, А.С. Кармина, Д. Пойа и др.)
Верность полученных результатов подтверждается практической реализацией, апробацией и внедрением методологических правил, методов и алгоритмов оценки качества тестовых материалов на уровне Рособрнадзора и высших учебных заведений.
Научная новизна полученных в данной работе результатов состоит в следующем:
Проведен критический анализ семантики различных форм мышления в тестологии, на основе которого формулируется нормативная система проектирования тестовых утверждений различного уровня ценности.
Показано, что ни чистая логичность, ни аналогичность не являются формализованными понятиями; они не сводимы друг к другу, что не позволяет дать строгое определение логичности в теории тестов, не прибегая к правдоподобным построениям композиций тестовых утверждений.
Переключение направленности семантического анализа с проблемы истины на проблему эпистемологических контекстов расширил предмет философской логики, преобразовав ее в теорию аргументации.
Методология интегральной оценки качества многофакторных тестовых заданий должна рассматриваться как находящаяся в рамках между логикой аналогий и тем или иным вариантом логики тождества.
Благодаря синтезу логико-гносеологического и ценностно-смыслового подходов и топометрикам статистики качеств, автору впервые удалось построить констелляции оценки качества кратких тестовых суждений, исследуемых как многофакторные объекты числовой и нечисловой природы.
Оценка теоретической значимости результатов работы.
Разработанная автором настоящей диссертации система методологических правил проектирования тестовых материалов составляют ядро нормативной системы проектирования тестовых заданий. Полученные модели и алгоритмы являются основой для оценки качества тестовых заданий как многомерных объектов произвольной природы, что является главной задачей при создании банков тестовых заданий с заданными параметрами валидности и надежности.
Практическая ценность работы. Поскольку основные положения данной работы выстраиваются не аксиоматически, а содержательно, то полученные правила и формальные отношения непосредственно реализуют сам действительный мир тестологического познания, когда в метатеории рассматриваются неформальные семантические модели, в качестве которых выступают сущие элементы тестовых утверждений и их интегральные оценки качества. Предложенные модели и алгоритмы положены в основу проведения апробации и экспертизы тестовых заданий испытательной лаборатории по проведению сертификации качества тестовых материалов и технологий компьютерного тестирования (аттестат аккредитации №РОСС RU.0001.21 СПЗ5 от 23.09.03). Результаты работы нашли практическое применение в процессе апробации баз программно-дидактических тестовых заданий (ПДТЗ), используемых во время аттестационных проверок студентов.
На защиту выносятся следующие положения:
методологические правила проектирования гармонично целостных композиций тестовых утверждений, основанные на культуре правдоподобных рассуждений;
модель тестового задания как многофакторного объекта разнообразной природы;
обоснование выбора топометрик для содержательного анализа качества тестовых заданий;
комплексный и интегративный показатели оценки качества
тестового задания и алгоритмы их вычисления;
модели и алгоритмы апробации тестовых материалов.
Апробация результатов работы. Основные результаты
диссертационной работы обсуждены на Всероссийских конференциях «Развитие методов и средств компьютерного тестирования», Москва 2004; «Развитие методов и средств компьютерного тестирования», Москва 2005; «Управление качеством профессионального образования: от проблемы к системе», Казань 2005; «Инновационные методы и средства оценки качества образования», Москва 2006; «Экономико-правовые проблемы и перспективы развития уральского региона», Екатеринбург 2006.
Внедрение результатов. Методологические правила проектирования программно-дидактических тестовых заданий используются при повышении квалификации преподавателей «Методология и концепция компьютерного адаптивного тестирования», проводимого Московским государственным университетом печати. Результаты работы положены в основу отчета при выполнении Государственного контракта №1070 от 22 ноября 2004 года (Федеральная целевая программа «Развитие единой образовательной среды (2001-2005)»), а также внедрены в ряде ВУЗов РФ.
Публикации. Основные положения диссертации изложены в 14 научных публикациях.
Структура и объем диссертации. Диссертационная работа состоит из введения, 4-х глав, выводов, основных результатов, списка используемой литературы и приложений. Диссертация изложена на 186 страницах, содержит 32 рисунка, 24 таблицы, 5 приложений. Список используемой литературы содержит 36 наименований.
Стратификация тестовых заданий и тестологическая эпистемология
Тестовое задание —выражение, утверждающее что-либо об объекте рассматриваемого фрагмента учебной дисциплины. С синтаксической точки зрения — это система знаков, классифицируемая как повествовательное предложение, содержащее исходные посылки и требования, превращающиеся в суждение при введении тестируемым заключения на эти требования. Данное предложение является знаковым изображением функциональной зависимости в том смысле, что значение объектной формы зависит от назначения переменных (аргументов). Функции называют пропозициональными - логическими, если хотят подчеркнуть синтаксический аспект, или логичными функциями — в случае акцентирования семантического аспекта тестового суждения. Семантика тестового задания определяет его смысл, а логика — возможность ставить вопрос об истинности или ложности рассматриваемого утверждения.
Стратификация композиций тестовых заданий на основе культуры их проектирования означает различие этих духовных компонентов в зависимости от занимаемого статуса, обозначающего качественное расслоение последних на основании совокупности наиболее существенных тестологических факторов (рис. 1.1.). На основе таких симптомов, как форма мышления, строение тестового задания, краткость, тектоническая ясность и т.д., ПДТЗ делятся на тестовые ситуации (ТС), краткие тестовые утверждения (КТУ) и композиции гармонично целостных тестовых утверждений (ГЦТУ). По назначению ТС и КТУ могут применяться для сопоставления тестируемых по степени обученности, а ГЦТУ — для оценки уровня учебных достижений испытуемых. Однако при проектировании тестовых заданий на любом уровне стратификации должны использоваться те или иные элементы нормативной системы. Безусловно, в некоторых ситуациях мы можем предпочесть ПДТЗ, не требующие жестких оценок качества, в других — композиции ЭФТК, обеспечивающих хотя и более трудное, но более верное установление оценки полезности ГЦТУ. Заметим, что КТУ могут наряду с ГЦТУ входить в сертифицированные БТЗ и ПДТ.
Для каждого уровня значимости существует свой набор существенных тестологических признаков, с помощью которых описываются качественные характеристики ПДТЗ. Чтобы отличить эту концепцию иерархии от других, будем использовать для нее термин стратифицированное описание, а уровни значимости программно-дидактических тестовых заданий, включающие эти описания, будем называть стратами (по М. Месеровичу).
На каждой страте в иерархии тестовых заданий имеется свой набор релевантных симптомов, которые позволяют ограничить изучение только одной конкретной стратой. Постепенное увеличение уровня значимости страт открывает возможность для анализа результатов проектирования ПДТЗ различного уровня ценности. Так, например, на первой и второй стратах ТС и КТУ включают небольшое число релевантных факторов, в то время как на третьей страте при проектировании и оценке качества ГЦТУ мы имеем дело со всеми существенными признаками. Для каждого из этих уровней описания имеется своя модель, однако объект — программно-дидактическое тестовое задание, конечно, остается одним и тем же.
Понимание качества композиции ПДТЗ как системы возрастает при последовательном переходе от ТС к КТУ и, наконец, к композиции ГЦТУ. Чем выше мы поднимаемся по иерархии, тем больше ограничений накладывается на проектирование программно-дидактических тестовых заданий, тем яснее становится содержание системы тестовых утверждений. В конечном счете выбор исходной стратифицированной модели проектирования зависит от тестологической и профессиональной компетенции проектировщика, а также от назначения и стоимости системы ПДТЗ. Здесь поведение и процесс целенаправленного поиска представляет собой последовательность принимаемых и осуществляемых решений. Однако во всех случаях для вышестоящих страт тестологические факторы и элементы нормативной системы проектирования ПДТЗ, применяемые на нижних стратах, несут исходную информацию.
Следовательно, категория рационального качества программно-дидактических тестовых заданий — наиболее общее и фундаментальное понятие, отражающее существование свойства тестового суждения, отношения значений факторов и их познание (рис. 1.2.).
Шкалирование при анализе дидактической информации
Задача шкалирования состоит в том, чтобы построить оценки качества заключений тестируемых в числовых или номинальных шкалах. Целью шкалирования является проектирование пространства научных наблюдений за поведением тестируемых. Пространства могут быть метрическими (чаще евклидовым) или метрика может задаваться только путем упорядочения оценок поведения телеологических объектов по осям. Рациональными с точки зрения представления результатов являются методы шкалирования, в которых оценки построены не менее чем на интервальной шкале.
В зависимости от вида исходной информации методы шкалирования делятся на метрические и не метрические. Если качество заключений тестируемых на требования ПДТЗ различной категории трудности предлагается оценить в шкале от 1 до 3, причем 1 - значение самого легкого тестового суждения, а 3 - самого трудного тестового утверждения, то предлагается оценить выводы индивидов в интервальной шкале. С информацией такого рода работают метрические способы, и с этими данными проводятся соответствующие арифметические операции. В другом случае предлагается упорядочить качество заключений респондентов по предпочтению. Информацию такого вида обрабатывают с помощью неметрических методов шкалирования (ранговая шкала). С подобными данными не производится никаких незаконных для порядковой шкалы арифметических операций.
Оценка уровня обученности испытуемого - категория качественная. До тех пор пока полученные индивидом баллы не получат смысловую окраску, невозможно судить о значении латентного параметра обученности респондента. Поэтому отнесение количественных данных характеризующих поведение респондента, к конкретному качественному уровню-интервалу его обученности - постижение смысла оценки для заданной процедуры шкалирования. Постигая сущность оценки, мы как бы переносим замысел исходного знания проектировщика алгоритма отображения степени обученности испытуемого, обогащая это знание собственным суждением.
Желательно, чтобы шкала оценки, уточняя традиционный подход к отметке, была принципиально доступна пониманию субъектов, вовлеченных в процесс тестирования, психологически воспринималась как утверждение справедливости, подъем на новую ступень установления действительной степени обученности респондента. Более высокий уровень понимания алгоритма шкалирования связан с новой познавательной позицией, задающей интеллектуальную перспективу видения изучаемой реальности. Вне этой рациональной позиции исследователя вопрос о понимании качества отображения поведения тестируемого на шкалу оценки не может иметь адекватного решения. Рациональность есть, прежде всего, сфера принципов, допущений и процедур, обеспечивающих требуемую объективность и результативность процесса тестирования.
Разумеется, выбор алгоритма шкалирования может оказаться и неадекватным, так или иначе деформирующим отображаемую степень обученности объекта нечисловой природы. Но для системы образования принципиальное значение имеет решение вопроса о возможности адекватного понимания сущности оценки степени обученности испытуемого. В этом случае шкалирование приобретает новое в информационно-эпистемологическом смысле качество: с одной стороны, оно есть некоторая «точка зрения» познающего субъекта, задающая интеллектуальную перспективу видения реальности оценки, с другой - оно является некоторой объективной мерой, обуславливающей масштаб подхода к изучаемому процессу, некий его аспект, высвечиваемый субъектом с помощью имеющихся у него инструментальных и концептуальных средств. Объективно задаваемую познавательную процедуру шкалирования целесообразно обозначить как «смыслообразующий уровень-интервал качества обученности тестируемого».
Предикаменты (категории) количества - «сколько» и качества -«какое», введенные Аристотелем, образуют диалектическую пару и имеют собственную, реализующую их схему. В категории качества отражается специфика оценки, а в количестве - ее значимая определенность. Так, схема количества есть число, а схема качества - синтез ощущений, т.е. отражение свойства степени обученности эмпирического объекта. Категория «количество» выражает уровень обученности тестируемого в баллах, в то время как предикамент «качество» объединяет сходные достижения респондентов. Качества допускают большую или меньшую меру степени обученности. Им также присущи противоположности: если одна противоположность качества есть «аттестован», то другая будет -«неаттестован».
В рассматриваемом нами случае процедура шкалирования опирается на качественный (логичный) и количественный (логический) анализ. Игнорирование качественного подхода для оценки поведения объектов нечисловой природы затушевывает реально существующие дидактические процессы и находит лишь абстрактные числа.
Комплексная оценка качества тестового утверждения
Качественная определенность ПДТЗ конкретного уровня ценности означает одинаковость двух ПДТЗ одного уровня, хотя по некоторым свойствам тестовые суждения внутри одного уровня - интервала могут отличаться. Будучи тождественны по своему качеству, тестовые задания различного уровня значимости отличаются друг от друга лишь количественно по числу существенных факторов. Иначе говоря, тождественность, одинаковость ПДТЗ по качеству есть предпосылка для понимания их количественной стороны. Это естественно, так как не может быть отдельно качества или количества, существуют композиции ТС или КТУ, или ГЦТУ, каждая из которых одновременно есть и то и другое. Только в цепях сложности познания целостности ПДТЗ мы искусственно отделяем количество от качества для того, чтобы затем установить их связь.
Но категория количества требует отвлечения от качественного многообразия релевантных факторов. Поэтому общая закономерность научного познания такова, что сначала изучаются качественные различия ПДТЗ, а затем их количественные закономерности как сущность ПДТЗ конкретного уровня ценности.
Из сказанного следует: количество есть выражение однородности тестовых суждения по уровню ценности, их подобия, сходства, близости, родства. Количество поэтому находит свое воплощение в величине, числе. Чем выше значимости ПДТЗ, тем сложнее их количественные признаки, тем больше их число. Отличие количества, от качества состоит в том, что можно в разумных пределах изменять некоторые количественные свойства без того, чтобы тестовое задание претерпело значительные перемены. Скажем, количество символов в исходных посылках или число вариантов заключений в ПДТЗ закрытой формы может быть в разумных пределах большим или меньшим. Это на тестовом суждении определенного уровня ценности не сказывается. Поэтому при анализе количественных отношений можно в конкретных границах отвлечься от качества тестового утверждения. Однако количественные изменения находятся во внешних отношениях к качеству композиции ТС, КТУ или ГЦТУ в определенных для каждого уровня значимости ПДТЗ пределах. Иногда малейший выход за границы уровня-интервала влечет за собой качественное изменение тестового суждения.
Поскольку большинство релевантных факторов ПДТЗ имеют нечисловую природу, то границы уровней-интервалов (статусных слов) качества устанавливаются субъектом. Эти интервалы будем называть нормами. Нормы в отличие от мер изменчивы и подвижны. Статусные слои имеют установленные заранее исследователем граничные допустимые значения.
При оценке качества ПДТЗ возможны три зоны проверяемого состояния: ниже допустимого значения (X Хн); выше допускаемого значения (X Хв); между верхним и. нижним допускаемыми значениями (ХН Х ХВ).
Результатом оценки является не число, а одно из взаимоисключающих утверждений: качество тестового утверждения находится в пределах допускаемых значений, т.е. имеет конкретный уровень ценности; качество ПДТЗ находится за пределами данного уровня значимости.
Категория нормы выражает такое взаимоотношение между свойствами ПДТЗ, когда его качество основано на определенном количестве, а последнее есть количество определенного качества.
Количественные изменения совершаются постепенно, а качественные -происходят в виде скачка. Скачок означает момент качественного изменения ценности тестового суждения.
Программно-дидактическое тестовое задание (ПДТЗ) - объект нечисловой природы, и, если мы ясно осознаем, что не в состоянии учесть на требуемом уровне логико-гносеологической строгости существенные факторы (норму трудности, тектоническую выразительность, гармоничность и т.д.), влияющие на качество гармонично целостного тестового утверждения (ГЦТУ), то в какой степени должна нас заботить логическая безупречность внутренней схемы вычисления валидности или надежности композиции высокоорганизованной формы (ВФ)? Ведь совершенно очевидно, что вся последовательность вычислений показателя элементарного феномена тестовой культуры (ЭФТК) от условия до результата должна быть логически верной. Чем больше внешней неопределенности в условиях, тем менее обоснованными оказываются строгие требования к внутренней логической доказательности формализованности решения. И, наоборот, опора на категории содержания, формы и композиции ПДТЗ, учет релевантных тестологических признаков числов ой и нечисловой природы, синтез логического и ценностно-смыслового подходов при выборе критериев качества ЭФТК оказываются рационально обоснованными, естественно вытекающими из сущности «постановки задачи».
Традиционная альтернатива «все или ничего» в оценке проектирования и возможности применения ПДТЗ разного уровня ценности в сфере образования неуместна и вредна, поскольку отношение числа успешных попыток к неуспешным оказывается лишь текущим показателем достигнутого выигрыша в повышении контроля качества обученности в данное время по конкретной учебной дисциплине.
Принципиально иная ситуация складывается, когда результаты компьютерного тестирования связаны с принятием решения об оценке, полученной испытуемым. В этом случае при системном анализа качества ЭФТК учитываются все существенные признаки (явные, скрытые и труднопознаваемые), а система ГЦТУ подвергается тщательной тестологической экспертизе специалистами и апробации. «Доказательная область» приложений ПДТЗ 3-его уровня ценности должна быть основным объектом внимания администрации и преподавателей.
Еще раз хотелось бы подчеркнуть: разработанные преподавателями тестовые материалы (БТЗ, ПДТ и ПДТЗ) должны рассматриваться не так пристально как профессионально создаваемый преподавателями-тестологами композиции ГЦТУ, массовая потребительская ценность которых не может обсуждаться до получения сертификата соответствия требованиям образовательных программ. С другой стороны, БТЗ, созданные на основе ТС и/или КТУ оказываются локально полезными до окончательной их доводки до ГЦТУ 3-его уровня значимости. Разные задачи, разные технологии проектирования, разная степень учета системности при анализе ПДТЗ, разные области приложений и, как следствие, принципиально различные ожидаемые результаты тестовых проверок.
Для практической реализации оценки качества ПДТЗ установлена процедура оценивания на алгоритмическом уровне, где представлены внутренние операции, определяющие процесс оценки в узком смысле слова (рис. 3.7.).
Методики по апробации программно-дидактических тестовых материалов. Планирование экспериментов и проведение научных опытов
Система означает, что в тесте собраны такие задания, которые обладают системообразующим свойствами. Хотя любой тест состоит из тестовых заданий, последние представляют не совокупность произвольно объединенных заданий, а именно систему. Тест, как система, обладает составом, целостностью и структурой. Тест состоит из: заданий; правил их применения; оценок за выполнение каждого задания; рекомендаций по интерпретации тестовых результатов. Целостность означает взаимосвязь заданий, их принадлежность общему измеряемому фактору. Каждое задание теста выполняет отведенную 150 ему роль и потому ни одно из них не может быть изъято из теста без потери качества измерения.
Структура теста образует способ связи заданий между собой. В основном, это так называемая факторная структура, в которой каждое задание связано с другими через общее содержание и общую часть вариации тестовых результатов.
Качество теста традиционно сводится к определению меры его надежности и вопросов валидности полученных результатов.
Валидность означает пригодность тестовых результатов для той цели, ради чего проводилось тестирование. Валидность зависит от качества заданий, их числа, от степени полноты и глубины охвата содержания учебной дисциплины (по темам) в заданиях теста. Кроме того, валидность зависит также от баланса и распределения заданий по трудности, от метода отбора заданий в тест из общего банка заданий, от интерпретации тестовых результатов, от организации сбора данных, от подбора выборочной совокупности испытуемых.
Надежность определяется двумя основными параметрами - ее стабильностью во времени и предсказуемостью ответов на вопросы внутри шкалы.
Первая концепция (надежность типа тест-ретест) достаточно проста. Понятно, что результаты теста не должны меняться резко выраженным образом, если тест повторяется через пару дней. Поэтому для проверки этого типа надежности тест (без какого-то ни было обсуждения или сообщения результатов тестирования) повторяют через неделю - 10 дней после первого тестирования. Затем проводится расчет обычного коэффициента корреляции. Если он оказывается выше 0,7, то можно говорить о достаточной ретестовой надежности шкал.
Эта процедура, часто применяемая в психологическом тестировании, в образовательном тестировании не пользуется большой популярностью. Дело в том, что естественное любопытство тестируемых приводит к тому, что они, запоминая часть заданных вопросов, начинают отыскивать ответы на заданные вопросы, что меняет результаты. Кроме того, при повторном тестировании отсутствует элемент новизны в заданиях и поэтому человек может достаточно быстро ответить на те вопросы, на которые он уверенно ответил в прошлый раз (практически не читая их заново) и потратить больше времени на другие задания. Все это приводит к неоправданным изменениям значения ретестовой надежности. Поэтому чаще всего используется определение внутритестовой надежности шкал. Если шкала является надежной, то положительный ответ на каждый вопрос повышает вероятность положительного ответа на другой. Если же этого не происходит, и между ответами на разные вопросы нет связи, то связующая нить отсутствует и говорить о шкале вряд ли возможно.
Наиболее логичным способом измерения такой надежности будет разбить шкалу случайным образом на две половины и посчитать суммарную оценку в обеих половинах. Если шкала надежная, то средний результат по всем экзаменуемым в обеих половинах будет одинаковым. Чем больше расхождения между половинами, тем ниже надежность шкалы (этот тип надежности называется "надежность при делении пополам" - Split-half reliability). На самом деле этот метод является одномоментным вариантом ретестовой оценки надежности. Один тест рассматривается, как состоящий из двух подтестов. И, как в случае ретестового изучения надежности, результат в обеих половинках должен быть одинаковым. Причем, как и при ретестовой надежности, рассчитывается коэффициент корреляции rv между /2 результатами в первой и второй половинках. Далее по формуле Спирмена 2 ГК Брауна вычисляем коэффициэнт надежности теста в целом: R = ——.
Коэффициент надежности теста находится в прямой зависимости от кол-ва заданий в тесте. Чтобы довести коэффициент надежности теста до желаемого уровня путем увеличения количества заданий в тесте используют формулу, при помощи которой определяют во сколько раз нужно увеличить количество заданий, чтобы добиться заданного уровня надежности тестов: п П-Г Щ-Г) /л /г\ R = ,= л = —І -. (4.6)
Вместе с тем, эта методика порождает одну проблему - как разбить шкалу на две половины. Можно найти такое разбиение, которые будет давать лучшие показатели надежности. Поэтому было предложено применять коэффициент, который является усредненным для всех возможных вариантов надежностей с разбиением на половины. Этот коэффициент называется альфа Кронбаха (Cronbach alfa) [31]:
Надо сказать, что в образовательном тестировании иногда применяется формула Кудера-Ричардсона (Kuder Richardson, KR-20): Л .0_ ! ), (4.8) m-\ ay где pj - процент решивших задания, су = 1-pj.
На самом деле эта формула является частным случаем альфа Кронбаха для бинарных вариантов оценки (правильно-неправильно), которые обычно и встречаются в образовательном тестировании. Однако при использовании методов оценивания, учитывающих длину вопроса или негативного оценивания, формула KR-20 неприменима. Поэтому далее мы будем говорить только об альфа Кронбаха понимая, что результаты расчета по формуле KR-20 дадут абсолютно те же результаты.