Система содержательной валидизации дидактических тестов в современной педагогике Нестеренко Наталья Дмитриевна

Данный автореферат диссертации должен поступить в библиотеки в ближайшее время
Уведомить о поступлении

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - 240 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Нестеренко Наталья Дмитриевна. Система содержательной валидизации дидактических тестов в современной педагогике : Дис. ... канд. пед. наук : 13.00.01 Ростов н/Д, 2006 206 с. РГБ ОД, 61:06-13/872

Содержание к диссертации

Введение

ГЛАВА I. Становление и развитие системы требований к валидизации дидактических тестов 11

1.1. Историко-педагогические аспекты становления методологии и технологии валидизации дидактических тестов . 11

1.2. Современное состояние разработки проблем методологии содержательной валидизации дидактических тестов 19

1.3. Понятийный аппарат содержательной валидизации дидактических тестов 37

ГЛАВА И. Система процедур содержательной валидизации дидактических тестов 71

2.1. Концептуальная валидизация дидактических тестов 71

2.2. Конструктная валидизация дидактического теста 77

2.3. Программная (куррикулярная) валидизация теста 91

2.4. Психологическая валидизация дидактического теста 111

2.5. Обеспечение очевидной валидности дидактического теста 115

2.6. Затруднения содержательной валидизации дидактических тестов и средства их профилактики и преодоления 119

Заключение 138

Список использованной литературы 142

Приложения 155

Историко-педагогические аспекты становления методологии и технологии валидизации дидактических тестов
Понятийный аппарат содержательной валидизации дидактических тестов
Конструктная валидизация дидактического теста
Обеспечение очевидной валидности дидактического теста

Введение к работе

В современных системах образования прочное место как средство контроля качества и результатов образовательной деятельности занимают дидактические тесты. В западной педагогике десятилетия назад сложились и достаточно строго выполняются системы требований, как к разработке, так и к продвижению на рынок образовательных услуг профессиональных дидактических тестов, так и к пользованию ими со стороны педагогов.

В России этот процесс находится в начальной стадии, и от темпов его развития во многом зависит вхождение России в мировое образовательное пространство, признание российских документов об образовании полноценными с точки зрения норм мирового сообщества.

Поиск адекватных средств конструирования и профессиональной экспертизы дидактических тестов в отечественной дидактической тестологии проводился B.C. Аванесовым, эти проблемы анализировались Е.А.Михайлычевым, А.Н. Майоровым, С.А. Сафонцевым, В.А. Хлебниковым, М.Б. Челышковой. В русле педагогической психодиагностики аналогичные проблемы разрабатывались за рубежом ведущими специалистами -А.Анастази, К.Ингенкампом, П. Клайном, теоретиками эксперимента Д. Кемпбеллом, Р. Готсданкером.

Сложилось противоречие в российской системе образования между высоким уровнем требований современного науковедения, дидактической тестологии и распространенным несоблюдением этих требований в педагогических исследованиях и в прикладной дидактической диагностике на местах, даже при внедрении ЕГЭ - единого государственного экзамена, аналоги которого имеются в большинстве развитых зарубежных стран.

Невысокое качество дидактических тестов и негативные явления практики тестирования неоднократно отмечались в педагогической печати. Причины этого видятся в недостаточной методологической разработанности и

в неизвестности педагогической общественности наукометрических требований, адаптированных к специфической образовательной проблематике, и, в частности - требований к оценке качества тестов как профессионального диагностического инструментария, а также существенные пробелы в исследовательской и диагностической подготовке педагогов.

Профессионально разработанным тестом в тестологии в настоящее время считается не любой набор контрольных заданий, а только разработанная по строгим правилам методика диагностирования, прошедшая совокупность методологических процедур, доказывающих ее валидность - диагностическую ценность, и надежность. Но далеко не все ученые, занимающиеся проблемами тестирования, утвердительно отвечают на непростой вопрос: возможна ли в принципе полная валидизация теста либо другой диагностической, исследовательской методики?

Дидактические тесты, широко внедряемые в практику российского образования, выступают одновременно и в роли инструментов прикладной диагностики для коррекции педагогического процесса, и как средство пополнения фактологической базы педагогической теории и частных методик преподавания регулярной информацией о реально достижениях и «узких местах» в освоении образовательных стандартов, в развитии обучающихся, о недостатках и затруднениях в преподавании.

Требования к качеству дидактических тестов нарастают постоянно, как и ко всякому диагностическому инструментарию [90;91]. Собственные дидактические тесты создаются во многих учебных заведениях для собственных, внутренних нужд. Их не стандартизируют и не валидизируют в России, потому, что и не умеют этого делать, и не видят в этом необходимости. А она объективно есть, ибо лучше работать с диагностическим инструментарием, ценность которого известна, и иметь возможность сопоставлять результаты обучения не только на стадии итогового

контроля, когда уже почти ничего нельзя исправить, но и при текущем контроле по стабильным темам учебных предметов (хотя бы - по ключевым).

Американцы за последнее столетие создали сотни стандартизированных тестов, накопили банки инструментария и привели к нормативным требованиям профессионального инструментария даже тематические тесты по многим вопросам [44]. В России пока только предпринимаются первые попытки стандартизировать уже опубликованные и используемые дидактические тесты [90;91]. Но наблюдаются позитивные сдвиги в управлении педагогической наукой в решении вопросов обеспечения российской педагогики профессионально разработанными КИМами -контрольно-измерительными материалами, в состав которых, обычно, входят и дидактические тесты (хотя - не только они). На федеральном уровне уже приняты решения, согласно которым аттестация должна проводиться только по сертифицированным, прошедшим профессиональную экспертизу тестам [90; 112]. Проводятся конкурсы аттестационных технологий [91].

Суть основного противоречия в развитии дидактического тестирования в России заключается в том, что в настоящее время отечественная дидактическая диагностика не располагает достаточно надежной и валидной, общепризнанной системой рубежного и итогового дидактического тестового контроля, а также системой отбора лучших абитуриентов в вузы и другие профессиональные учебные заведения. Создать же такую систему можно только из профессионально разработанных и апробированных дидактических тестов, для которых многие ныне используемые на практике дилетантские тестовые материалы могут, в лучшем случае, послужить исходным сырьем, но не готовыми компонентами. Учитывая «догоняющий» характер проводимых в наши дни крупномасштабных реформ образования, разрешение этого противоречия мы видим в обеспечении системы образования научно обоснованными технологиями создания и апробации дидактических тестов, ядром которых мы считаем технологию их содержательной валидизации.

Цель нашего исследования заключается в оптимизации технологии содержательной валидизации дидактических тестов при их профессиональной разработке и экспертизе.

В качестве объекта исследования рассматривается профессионально-педагогическая методологическая деятельность разработчиков, апробаторов и экспертов дидактических тестов.

Предметом исследования являются процедуры обеспечения полной содержательной валидизации как создаваемых, так и используемых на практике дидактических тестов для эффективной последующей диагностики учебных достижений обучающихся.

Согласно гипотезе исследования, полная содержательная валидизация дидактических тестов предполагает в качестве обеспечивающих условий:

учет прогрессивных тенденций развития современной дидактической тестологии в аспекте профессионализации разработки ее инструментария проявляющихся в концептуальном подходе и многоаспектности процесса валидизации тестов;

систематизацию, уточнение и операционализацию основных понятий содержательной валидизации дидактических тестов как исследовательского и диагностического инструментария,

выявление в сравнительном анализе методологических возможностей практикуемых способов содержательной валидизации дидактических тестов, выявление их сильных сторон и ограничений;

разработку последовательной системы процедур и алгоритмов действий разработчиков и экспертов для многоаспектной содержательной валидизации тестов.

Для реализации цели исследования и проверки гипотезы были поставлены следующие задачи:

1. анализ тенденций развития современной зарубежной и отечественной дидактической тестологии в аспекте выявления эволюции требований к профессиональной разработке дидактических тестов;

систематизация и уточнение основных понятий экспертизы качества исследовательского и диагностического инструментария;
проведение сравнительного анализа методологических возможностей известных и практикуемых способов валидизации дидактических тестов, выявление их сильных сторон и ограничений;

4. определение процедур и алгоритмов многоаспектной содержательной валидизации тестов;

5. апробация пакета рекомендаций по многоаспектной валидизации дидактических тестов.

Методы и методики исследования.

Для решения поставленных задач использованы: теоретический анализ и обобщение результатов педагогических, психологических, методологических исследований; контент-анализ описаний технологий валидизации; сравнительный - исторический анализ тенденций развития дидактической тестологии, теоретическое моделирование; методы экспертной оценки.

Методологической основой исследования были:

философский принцип системно-структурного подхода (И.В. Блауберг, Б.Г. Юдин, В.Г. Афанасьев, Б.С. Украинцев);

методология педагогических исследований (И.П. Кантор, Б.И. Коротяев и др.);

идеи гуманизации педагогического образования
(Е.В. Бондаревская, В.В. Сериков и др.).

Концептуальные идеи исследования:

теории управления системой образования на диагностической основе (М.М. Поташник, B.C. Лазарев и др.);

концепция оптимизации педагогического процесса (Ю.К. Бабанского, М.М. Поташника);

теория научной организации педагогического труда И.П. Раченко;

концепция педагогической культуры учителя Е.В. Бондаревской;

концепции методологии и технологии педагогической диагностики (А.С.Белкин, Г.Ф.Карпова, А.И.Кочетов, Е.А.Михайлычев);

представление о структуре и процедурах содержательной валидности

тестов ведущих зарубежных (А.Анастази, П.Клайн, Д.Кембелл, Р.Готсданкер)

и отечественных (В.С.Аванесов, К.М.Гуревич, Е.А.Михайлычев,

С.А. Сафонцев и д.р.) исследователей.

В качестве экспериментальной базы выступали: Ростовский областной

ИПК и ПРО, ТГПИ и школы г. Норильска, г. Таганрога.

Исследование осуществлялось в три этапа.

Изучение методов разработки и валидизации дидактических тестов (1999-2002 г.г.)
Методологический анализ практики валидизации тестов, определение своих исследовательских позиций и подготовка рекомендаций педагогам-разработчикам и экспертам тестовых материалов (2003-2004 г.г.)
Апробация пакета рекомендаций и оформление текста диссертации (2004 - 2005 г.г.)

Научная новизна и теоретическая значимость исследования состоят в следующем:

- разработана система процедур обеспечения многоаспектной
содержательной валидизации дидактических тестов;

- скорректирован понятийный аппарат технологий содержательной
валидизации дидактических и предложено качественно новое представление
об иерархии и последовательности ее процедур, а именно: а) концептуальная
валидизация; б)конструктная; в)программная (куррикулярная);
г)психологическая; д)обеспечение содержательной валидности;

- созданы алгоритмы оптимального процесса содержательной
валидизации дидактического теста на стадиях разработки и экспертизы,
предусматривающие профилактику возможных ошибок и затруднений.

Практическая значимость исследования заключается в том, что:

разработаны методические рекомендации по содержательной валидизации дидактических тестов, ориентированные на студентов педвузов, педагогов-практиков, экспертов образования и для системы повышения квалификации учителей-предметников;

разработанные требования к системе содержательной валидизации внедряемых в образовательный процесс тестовых материалов позволяют при их доработке существенно повысить качественные характеристики, что должно способствовать расширению спектра сертифицируемых тестов для отечественной системы образования.

На защиту выносятся следующие положения:

Сложившейся тенденцией современной дидактической тестологии в аспекте обеспечения содержательной валидности тестов является сосуществование валидизации «по авторитету», эмпирической и концептуальной валидизации. Только последняя является перспективной с точки зрения современной методологии научно-педагогического исследования и диагностирования, как обеспечивающая многоаспектность и полноту содержательной валидизации дидактических тестов;
Содержательная валидизация дидактических тестов является при их оценивании приоритетной характеристикой, представляют собой систему взаимосвязанных методологических процедур, имеющих свои достаточно жёсткие алгоритмы, невыполнение которых снижает качество разрабатываемых тестовых материалов.

3. Полноценная содержательная валидизация теста на стадии его
конструирования, равно, как и экспертная оценка его содержательной
валидности в условиях экспертизы, должна быть многоаспектной и отражать,
как минимум, его концептуальную, конструктную и программную,валидность.
Желательно дополнение ее психологической и очевидной валидностью.

4. Перспективы разработки стандартизированных дидактических тестов нового поколения связаны с обеспечением и определением их синтетической и педагогической валидности, а также с использованием ресурсов компьютерных технологий на всех этапах разработки, апробации тестов и их подготовки к массовому внедрению.

Достоверность и обоснованность полученных результатов
обеспечивается соблюдением требований методологии педагогического
исследования, теоретической обоснованностью конструктов

применяемых эмпирических методик, комплексом методов
взаимоконтроля качества получаемой информации, репрезентативностью
выборки методологического исследовательского эксперимента. О
достоверности результатов эксперимента свидетельствует

зафиксированное руководителями образовательных учреждений повышение уровня диагностической культуры педагогов и качества получаемой ими педагогической информации.

Апробация результатов исследования проводилась на международных конференциях по актуальным проблемам педагогической диагностики и мониторинга системы образования (Таганрог, 2004), по проблемам инструментария педагогической диагностики (Таганрог, 2005), на муниципальных совещаниях по проблемам контроля качества образования (г. Норильск), внутривузовских совещаниях и конференциях по аналогичной проблематики, отражены в 5 публикациях автора общим объемом св. 5,5 п.л.

Структура диссертации. Работа изложена на 205 страницах машинописного текста. Диссертация состоит из введения; двух глав; заключения, включающего выводы эмпирические и теоретические, практические рекомендации и перспективы дальнейшего исследования проблемы; списка используемой литературы, состоящего из 149 источников и 8 приложений. Работа сопровождается 3 таблицами и 7 иллюстрациями.

Историко-педагогические аспекты становления методологии и технологии валидизации дидактических тестов

Разработка проблем валидизации исследовательского и диагностического инструментария в развитии методологии социальных наук тесно связана с ростом престижа этих наук, как способных решать актуальные прикладные проблемы - оценивать качество результатов обучения, качество подготовки персонала, профпригодность, доминирующую мотивацию поведения, профессионально значимые личностные качества, склонность к лидерству и т.п.

Тесты, как психодиагностические, так и дидактические, еще в начале XX века стали браться на вооружение перспективно мыслящими менеджерами промышленности и управленцами системы образования. На западе они прочно вошли в практику контроля качества образования ещё с середины XX века.

В социальных науках в СССР общая атмосфера 60-70-х годов была насыщена постоянно раздававшимися требованиями "осторожною", "критичного" применения терминологии "буржуазной науки" (чтоб не засорить чистоту невинной марксистской идеологии).

С присущей советским социологам осторожностью даже в середине 70-х годов в фундаментальном социологическом "хэндбуке", "Рабочей книге социолога" проблемы валидизации методик рассматриваются в контексте надежности измерения и определяются термином "обоснованность". Авторы книги отмечали, что "проверка обоснованности - достаточно сложный процесс и, как правило, не до конца разрешимый". Социологи обоснолванно считали, что обоснованность данных измерений - это доказательство соответствия между тем, что измерено и тем, что должно быть измерено [108, С..247]. Один из инициаторов развития современной дидактической тестологии, В.С.Аванесов, отмечает, что в начале XX века господствовал интуитивный подход, и "если к выдумыванию тестов привлекались известные ученные, то это являлось лучшим на тот период способом обоснования валидности, который можно назвать "валидизацией по авторитету"[1].

Надо заметить, что такой подход, как «реликтовый», сохраняется в нашей педагогике и психологии по сей день, сосуществуя с другими подходами к разработке и апробации тестов - эмпирическим и концептуальным.

Так, до сих пор и в научных сообщениях, и в диссертациях немалая часть ученых, характеризуя качество своего инструментария, ограничивается общей ссылкой на авторитет первоначального разработчика методики (даже если она потом последующим исследователем была модифицирована до неузнаваемости). Отсюда, на наш взгляд, в немалой мере проистекает отмечавшийся методологами консерватизм использования устаревших не только морально, но и функционально, методов исследования, а также и нежелание (а, возможно, и неумение) их адекватно описывать.

Явление это настолько распространено, что председатель экспертного совета по педагогике и психологии ВАК Минобразования РФ Д.И. Фельдштейн отмечает, что "в работах, выполняемых в 2002-2003 гг., зачастую фигурируют методы и методики, применявшиеся в 20-30 гг. XX века" [137].

Многие из них были разработаны по методологии «ползучего эмпиризма». "Ползучий эмпиризм" социологии и психологии в США и Западной Европе в 30-60 гг. XX в. в форме опоры только на статистику и факторный анализ выступал как средство компенсации отсутствия теории, как возможность максимально конкретизировать выводы и практические рекомендации. Математизация психологии и социологии в сочетании с крайностями увлечений сугубо прикладными проблемами диагностики порождали увлечению формулами и индексами как противовесами малообоснованным теоретическим спекуляциям [1;5;109].

Но при этом игнорировалась расширившаяся возможность теоретического анализа на базе структурно-системного подхода.

В методологии, проводящихся сегодня научно-педагогических исследований, еще меньше внимания уделяется истории интернациональной общенаучной лексики (а термин "валидность" относится именно к ней).

Запутанность понятийного аппарата в социальных науках (включая психологию и педагогику в бывшем СССР) имеет своим следствием недостаточное внимание исследователей к становлению и эволюции даже ключевых (в той или иной отрасли) понятий. Еще меньше внимания уделяется истории интернациональной общенаучной лексики (а термин "валидность" относится именно к ней).

В.С.Аванесов, выделяет два основных варианта эмпирического подхода: 1. Прогностический, логика которого сводилась к представлению о том, что если хорошо работающие (по критерию У), показывают высокие результаты по тесту X, значит, здесь есть связь, быть может, и причинная. Отдавая при приеме на работу предпочтение тем, у кого выше результаты по X, предполагают их будущую более высокую производительность труда.

2. Экспертный подход - если эксперты согласованно считают одних более способными, чем других - значит, это так и есть. И если результаты теста указывают на сходную тенденцию, коррелируют с данными экспертов -тест валидный [1, С.ЗЗ].

Оба эти подхода в настоящее время сосуществуют, только применяются они при разных видах валидизации тестов (и, заметим, с разным уровнем профессионализма исполнителей, разработчиков и экспертов).

Прогностический - преимущественно при эмпирической валидизации, при определении факторной, локальной и собственно прогностической валидности в целом. А также при определении критериальной синтетической валидности. В основном в педагогической психодиагностике этим занимаются психологи, затрагивающие вопросы диагностики обучаемости. Прогнозы такого типа осуществляют немногочисленные специалисты в области собственно дидактической тестологии.

Понятийный аппарат содержательной валидизации дидактических тестов

Понятийный аппарат отечественной педагогики в целом и её многочисленных отраслей в течении как минимум, полувека вызывает своей некорректностью недовольство и теоретиков, и практиков.

Говоря о понятийно-терминологическом аппарате научно-педагогических исследований, еще в 1956 году Президиум АПН РСФСР указал на необходимость установления "четкой классификации педагогических терминов и наименований, правильного и объективного их раскрытия" [101]. Понятийно-терминологические проблемы педагогики как были актуальными в середине XX в., так и остались таковыми и по настоящий момент [26; 123]. Методологами педагогики (В.М. Полонским, В.В. Краевским, Я.С. Турбовским) отмечалось, что все еще недостаточно наведен порядок в методологическом аппарате исследований [100; 105].

В постсоветский период понятийно-терминологические проблемы педагогики приобрели еще большую остроту, поскольку идеологическая наполняющая многих ключевых терминов явно дисгармонировала с новой, гуманистической парадигмой.

В научно-педагогических исследованиях появляется большое количество новых понятий и терминов, (в т.ч. и "переводных", из арсенала западной педагогики и психологии.). И из-за нерегулируемости этого процесса дошло до того, что стали возможны утверждения об "отсутствии собственного теоретико-понятийного аппарата" педагогики вообще [21; 123].

А.Ф. Закирова в статье "Понятийная база современной педагогики" отмечает, что "педагогика имеет достаточно понятийно-терминологических сложностей и проблем, которые особенно обострились в период ее интенсивного развития в условиях реформирования образования и разработки новой парадигмы гуманитарной педагогики" [42]. В понятийном аппарате педагогики господствует стихия субъективных и часто противоречивых толкований, отмечает А.Я. Наин. Противоречивые трактовки многих категорий нередко объясняются неправильным толкованием и употреблением терминов, обозначающих то или иное явление [81].

М.А. Галагузова и Г.Н. Штинова подчеркивают, что анализ многих исследований показывает, что при рассмотрении тех или иных понятийно-терминологических проблем часто проявляется методологическая небрежность, безграмотность и происходит смещение методологических установок, что снижает эффективность предлагаемых решений [26].

Специалистами, изучавшими авторские термины, вводимые исследователями, подчеркивается, что имеет место злоупотребление отдельными соискателями псевдонаучной терминологией, так как часто за ее видимой сложностью скрываются общеизвестные положения [55].

Отмеченные тенденции проявляются и в сравнительно молодой, но интенсивно развивающейся дидактической тестологии.

В дидактическом тестировании, сопровождаемом психодиагностикой, особенно - на стадии его экспериментальной адаптации или при выверке методики, - необходимо предельно корректно пользоваться психолого-педагогической терминологией. Тот факт, что применительно к проблематике валидизации тестов в психологии она разработана несравненно подробнее, чем общепедагогическая, не означает, однако, что она должна быть в полном объеме, без критического анализа, перенесена в дидактическую тестологию.

Результатом такого анализа, попытку которого мы предпринимаем, должно быть, аргументированное соотнесение двух рядов терминологии валидизации - тестологической и экспериментальной, для выяснения их соотношения, общего и особенного, целесообразной сферы и условий применения.

Одновременно нашей задачей было выявить общие и специфические элементы процессуального аспекта валидизации, проанализировать (а в перспективе - и технологически разработать) общие черты концепции валидизации в дидактической тестологии.

Операционализация понятий и применение терминологических диагностических словарей с четко обозначенными понятиями должно быть заложено в основу как разработки гипотез, целей диагностирования, так и в формулировку однозначно толкуемых инструкций пользователям-диагностам и испытуемым. Такие словари призваны ознакомить педагогов с понятийным аппаратом дидактического и психодиагностического диагностирования, смогут, как мы надеемся, существенно поднять планку методологического уровня разработки и адаптации дидактических тестов. Тем самым будут созданы предпосылки для повышения внешней и внутренней валидности дидактических тестов, усиления их роли как надежного средства контроля знаний.

Хотя термин ВАЛИДНОСТЬ известен в европейской науке уже давно, более полувека, в СССР в психологических, социологических и, тем более, педагогических исследованиях он употребляется редко - со всеми вытекающими из этого последствиями для возможности пользователя оценить качества методик, предлагаемых разработчиками и издателями альманахов тестов пользователям-практикам.

В современной литературе по педагогике термин валидность почти не встречается, и лишь редкими авторами, тяготеющими к проблематике педагогической и психологической диагностики, он употребляется для характеристики исследовательских достоинств методик. Его применение более связано с различного типа социологическими, психодиагностическими, дидактическими тестами, причем используется широкий спектр определений, характеризующих те или иные особенности валидности [1;3;21;74].

Конструктная валидизация дидактического теста

Термины "конструктная" и" содержательная" валидность являются наиболее употребляемыми в диагностической литературе.

Один и тот же вид валидности обеспечивается (как результат) нередко целым рядом процедур валидизации, зачастую дополняющих друг друга, но различных по характеру, содержанию и объему требуемой работы диагноста и апробатора.

Без содержательной валидности ни один дидактический тест не может серьезно рассматриваться как измерительный инструмент. Ибо пока не определена его содержательная валидность - не понятно, что же он измеряет и зачем нужен.

В результате мы имеем пробелы в теории дидактической тестологии, которое необходимо заполнять совместными усилиями учителей и исследователей [ 3; 35; 74; 116].

Термин "внутренняя согласованность" более связан с функциональной грамотностью или комплексными тестами достижений, что определяет его большую пригодность для дидактической тестологии, особенно - для тестов тематического и рубежного контроля, а также для тестов, диагностирующих целостность и отражение в сознании учащихся межпредметных связей в какой-то области знаний, изучавшейся с позиций различных учебных дисциплин.

Понятие "сбалансированность" более формально, предполагает количественное равенство между индикаторами и высказываниями (признаками, подсказками) в закрытых вопросах. Внутренняя согласованность содержит этот аспект как одно из проявлений структурной иерархии элементов модели объекта в структуре теста. Она демонстрирует прочность внутрисистемных взаимосвязей заданий теста (выполненных учащимися) в тесте как целостной методике. Ее сопоставление с теоретической моделью учебного предмета (диагностируемой образовательной области) показывает, насколько они адекватны [2;14;76].

Поскольку понятие "внутренняя согласованность" имеет важное значение при содержательной валидизации теста, целесообразно определить его следующим образом: внутренняя согласованность заданий теста или субтестов - существенная характеристика теста, определяющая его гомогенность (однородность, взаимосвязанную близость заданий). Слишком высокая внутренняя согласованность двух заданий показывает, что эти задания почти аналогичны и тяготеют к дублированию друг друга; слишком низкая (стремящаяся к нулю) означает, что задания измеряют количественно разные признаки внешнего критерия или какой-либо посторонний для теста фактор [3;92].

Конструктная валидность дидактического теста - это отражение в нем теоретической модели курса, его структурных пропорций и основных компонентов на всех уровнях - вплоть до учебных элементов. Куррикулярная валидность дает нам лишь основу для определения конструктной валидности. Она показывает, отражены ли в тесте необходимые с точки зрения полноты контроля знаний учебные элементы, и какие именно [83].

Но логическая структура учебного материала - это не просто совокупность элементов знания, но и их определенная последовательность, иерархия со сложной системой координационных и вертикально-соподчиненных взаимосвязей. Опыт показывает, что на базе уже проведенной куррикулярной валидизации теста намного легче и быстрее проводить его конструктную валидизацию - все основные элементы конструкта - модели теста налицо, ясна степень их значимости для решения диагностических задач. Возможна и обратная логика - в стадии разработки теста проще изначально определит структуру теста, «удельные веса» каждого относительно самостоятельного блока вопросов - а затем формулировать и подбирать задания.

Конструктная валидизация теста включает в себя следующие процедуры при разработке нового дидактического теста:

1. В текстовой и графической форме представляется структура знаний и умений в виде структурно-логической схемы с иерархическими и координационными связями. Строится в соответствии с этой схемой из имеющегося набора заданий адекватная структурно-логической схеме модель теста. 2. В другой ситуации, когда проводится адаптация уже готового (например, переводного) теста, потребуется строить конструкт после спецификации этого теста. Причина в том, что многие зарубежные тесты составлялись на иной, чем в СССР и России, концептуально-понятийной основе и трактовки понятий по объему и структуре часто не совпадают [74; 117]. Спецификация же, проведенная в контексте отечественных концепций и принятой терминологии покажет, что же реально измеряет тест в его первоначальном (авторском) варианте и что надо менять, дополнять с позиций наших трактовок диагностируемого явления и наших диагностических задач. В представляемой нами системе процедур количественного анализа программной (куррикулярной) валидности теста его конструктная валидно лъ в количественном выражении выводится из полученных результатов сопоставления структуры теста и структуры программы. Конструктная валидность, таким образом, характеризует тест с точки зрения того, какие иерархические элементы модели диагностируемых знаний (умений, навыков) в большей или меньшей степени отражены в структуре теста как средства контроля, какие - вообще не отражены [74;83;119]. Она позволяет определить, может ли тест адекватно диагностировать каждый из структурных разделов программы. А также - учитывая в составе теста наличие (или, наоборот, отсутствие) взаимосвязанных между собой заданий выявлять реально заложенные в структуре учебной программы данной образовательной области внутрипредметные и межпредметные связи (и какие именно, в какой степени). В принципе возможно математическое описание конструктной валидности дидактического теста (как, впрочем, и всякого другого), но на практике пока что такой подход еще не разработан из-за большой трудоемкости и неготовности известных центров тестирования идти на сложные методологические эксперименты. При характеристике конструктной валидности теста разработчику (мили - эксперту-аналитику) необходимо учитывать иерархические уровни самих конструктов, обусловленные уровнями (степенью обобщенности, глобальности) тех теорий, которые их объясняют.

Обеспечение очевидной валидности дидактического теста

Валидность по содержанию не надо смешивать с очевидной валидностью, показывающей насколько тест кажется ценным испытуемому, официальным лицам, принимающим решение о его использовании и другим неспециалистам.

Очевидная валидность - желательное свойство теста, так как в противном случае возможно негативное к нему отношение, что влияет на обстановку тестирования. Особо это важно при тестировании взрослых [76].

Заметим, что в отечественной литературе редко употребляется термин "очевидная валидность". В.Г. Аванесов связывает с содержательной валидностью понятие внешней представительности теста (анг. - face validity) -включение терминов и выражений, связанных с видами деятельности обследуемых и умелым "нелобовым" подбором эмпирических коррелятов базового понятия [1, С.143-145]. Это понятие близко (но не тождественно) термину "очевидная валидность" А.Анастази.

Очевидная валидность дидактического теста - это, по сути дела, субъективное представление о нем как об инструменте диагностики.

Однако в ходе тестирования оно оказывает весьма реальное влияние на отношение опрашиваемых и самих диагностов к процедуре и ее результатам. Если тест представляется диагносту строгим научным инструментом, он верит тесту - обычно диагност стремится передать такое отношение обследуемым. Если наоборот - то вряд ли можно ждать пунктуального соблюдения всех процедур, а несколько критических реплик организатора тестирования вполне могут привести к снижению добросовестности работы с тестом со стороны обследуемых.

Специфические проблемы очевидной валидности в немалой степени связаны с названием теста, состоящим из нескольких слов, призванных отразить сущность теста, его главную диагностическую направленность (нередко - в сочетании с местностью, в которой он создан). Например, "Батарея профессиональных способностей для служб" или "Канцелярский тест штата Миннесота "Стэндфордский тест навыков в обучении". По большой части, названия тестов слишком широковещательны, и по ним, невозможно установить, на какую сферу поведения рассчитан тест [83].

Для повышения очевидной валидности применяется переформулировка заданий так, чтобы они казались приемлемыми и естественными обследуемым (связывая задачи с их профессиональными проблемами, профессиональной лексикой).

"Неправильно думать,- пишет А. Анастази, что переделка теста повышает его очевидную валидность. Поэтому валидность теста в его окончательной форме всегда необходимо проверить заново" [3,СЛ31].

В отечественной литературе посвященной дидактическому тестированию, хотя и редко, но все же встречаются профессионально описанные тесты: - четкой характеристикой целей и задач тестирования; - с определением и описанием системы оценивания; - с презентацией выборки; - с операционной характеристикой ключевых критериев оценивания (например, грамотность чтения, математическая и естественнонаучная мощность); - с подробным описанием типов представленных в тесте видов заданий и их функционального назначения. достижений учащихся по проекту PISA - 2000. Хотя описание данного теста было дано уже после подведения итогов диагностики, предпринятые авторами аналитические разборы типичных заданий. Ориентируя исследователей в интерпретации результатов тестирования, при описании теста в тестировании такого масштаба дают крайние характеристики существенных отличий отечественных и зарубежных учебных программ, учебников. [60].

В количественной форме очевидная валидность может быть выражена в прямом виде только через опрос (или выборочное интервью) тестируемых о том, понравился ли им тест, считают ли они его полезным и хорошим инструментом измерения знаний (умений, качеств и т.п.).

В дидактическом тестировании такой подход вполне целесообра?ен, особенно если учесть, что тесты в отечественной педагогике в основном составляются непрофессионально, включают действительно неудачные или слишком примитивные вопросы, вызывая тем самым недоверие.

При апробации дидактического теста желательно провести опрос об отношении к нему (и к процедуре тестирования) педагогов- диагностов в качестве экспертов, то их оценки также могли бы характеризовать очевидную валидность теста.

Технология процедуры опроса такого рода должна быть отработана и стандартизирована. Это позволит сопоставлять данные анализа отношенш. к различным дидактическим тестам (в том числе и конкурентным в полном смысле слова, - экономическом, - когда имеется несколько представленных на конкурс вариантов одного предметного теста).

Количественные меры здесь могут быть в принципе те же, что и при определении содержательной валидности, со всеми теми же проблемами создания информационных банков знаний, интерфейсов, коэффициентов и т.п. [74].

Система содержательной валидизации дидактических тестов в современной педагогике Нестеренко Наталья Дмитриевна

Историко-педагогические аспекты становления методологии и технологии валидизации дидактических тестов

Понятийный аппарат содержательной валидизации дидактических тестов

Конструктная валидизация дидактического теста

Обеспечение очевидной валидности дидактического теста

Похожие диссертации на Система содержательной валидизации дидактических тестов в современной педагогике