Содержание к диссертации
Введение
Глава 1. Проблемы и перспективы в области автоматизированного тестирования знаний .
1.1. Теоретические находки и эмпирические основания педагогической тестологии.
1.2 От знаний к навыкам - современные тестологические подходы к оценке сформированности практических умений .
Выводы по главе 1
Глава 2. Разработка автоматизированной системы предъявления и оценки тестовых заданий .
2.1 Структура автоматизированной системы.
2.2 Разработка алгоритмов моделирования ситуационных задач в практике обучения специалиста-психолога .
Глава 3. Результаты тестирования знаний и навыков среди студентов, обучающихся по специальности "Клиническая психология".
3.1. Результаты тестирования знаний студентов.
3.2. Коррекция содержания банка заданий .
3.3 Экспериментальная оценка профессиональных навыков с помощью макета автоматизированной системы моделирования ситуационных задач .
Заключение.
- знаний к навыкам - современные тестологические подходы к оценке сформированности практических умений
- Разработка алгоритмов моделирования ситуационных задач в практике обучения специалиста-психолога
- Коррекция содержания банка заданий
- Экспериментальная оценка профессиональных навыков с помощью макета автоматизированной системы моделирования ситуационных задач
знаний к навыкам - современные тестологические подходы к оценке сформированности практических умений
Исторически, такие кривые были впервые построены эмпирически в конце 40-х - начале 50-х годов XX века (Аванесов, 2007). Для этого опросу по тесту подвергалась большая группа людей (более 1 000 человек). Далее для каждого испытуемого вычислялось число правильных ответов (первичный балл), а исходная большая выборка разбивалась на подвыборки. Каждую подвыборку составляли люди, получившие один и тот же первичный балл. Таким образом, имелись подвыборки лиц, ответивших только на один вопрос, только на два вопроса, только на три вопроса и т.д. Для каждой подвыборки вычислялся процент лиц, получивших данный первичный балл и правильно ответивших на определенный вопрос (например, на вопрос №1).
Далее для каждого вопроса строилась характеристическая кривая, абсцисса которой - первичный балл испытуемых данной подвыборки, а ордината 12 процент испытуемых данной подвыборки, правильно ответивших на данный вопрос. Этот процент рассматривается как оценка вероятности того, что ответивший на два (три, четыре и т.д.) вопроса ответит на данный вопрос. Американский институт тестирования коллекционирует такие кривые уже 50 лет. Хотя в некоторых случаях встречаются "нетипичные" кривые (например, U-образные, такие что на вопрос способны ответить только те, кто дает мало правильных ответов, и те, кто дает правильные ответы на большинство вопросов), большинство вопросов характеризуется тем, что вероятность правильного ответа монотонно возрастает по мере того, как мы рассматриваем все более способных испытуемых (с большими первичными баллами). Отсюда утверждение: характеристические кривые заданий монотонно возрастающие.
Формулировка этого утверждения была сделана уже на следующей стадии в развитии тестологии - стадии поиска регулярности в данных. Уже Ф. Гальтон заметил, что, если измерить у выборки людей определенную характеристику (например, массу), гистограмма частоты встречаемости того или иного значения данной характеристики колоколообразна и описывается формулой нормального распределения. (Мы в данном случае не будем учитывать, что столбец гистограммы отображает частоту встречаемости значений признака из определенного интервала, а закон колоколообразной кривой сформулирован для плотности вероятности - вероятности встретить значение признака из бесконечно малого интервала.) Распределение первичных баллов испытуемых в выборке тоже часто колоколообразно и описывается нормальным законом (Фер, Бакарак, 2010).
Очевидно, что варианты колоколообразных кривых многообразны, а их форма (в случае оценки уровня знаний) определяется двумя основными параметрами: средним значением уровня знаний в выборке (локализация центра «колокола» по оси абсцисс) и дисперсией уровня знаний. Дисперсия характеризует разброс уровня знаний от человека к человеку, степень "растянутости" колокола.
Оценки дисперсии и среднего значения могут быть получены из выборочных данных. При этом вместо дисперсии обычно приводят квадратный корень из дисперсии, т.к. дисперсия измеряется в квадратах баллов, а стандартное отклонение в баллах, то есть в тех же единицах, что и исходные измерения.
Показатели дисперсии и среднего значения первичных баллов испытуемых позволяют вычислить уровень знаний испытуемого. Для этого необходимо вычесть из первичного балла данного испытуемого средний первичный балл, полученный по группе испытуемых, и разделить полученную разность на стандартное отклонение первичного балла в группе (изменчивость числа первичных баллов от человека к человеку). Полученная величина отражает степень отклонения данного испытуемого от "среднего" уровня знаний.
Деление отклонения от среднего на меру изменчивости обосновывается тем, что такая операция позволяет выразить результаты двух разных тестов в одинаковых единицах - единицах стандартного отклонения и так сделать результаты сравнимыми. "Подобное преобразование используется в том случае, если отсутствуют другие возможности привести данные к единой шкале» (Кричевец, Шикин, Дьячков, 2003).
Результат любого теста, выраженный в единицах стандартного отклонения, можно преобразовать в процент испытуемых исходной выборки, имеющих еще лучший результат, чем данный испытуемый. Это удобно для целей отбора в образовании и в трудовой деятельности.
Возвращаясь к примеру со студентом, «уровень знаний» которого зависит от того, дали ему трудные или легкие вопросы, следует отметить, что выражение уровня знаний как отклонения от среднего решает эту проблему. При тестировании одной и той же выборки и легким и трудным наборами вопросов первичный балл каждого испытуемого, набранный в тесте с трудными вопросами, будет скорее меньше его же первичного балла, набранного в легком тесте. Соответственно, средний балл выборки испытуемых, вычисленный по результатам трудного теста, будет меньше среднего балла, вычисленного по результатам легкого теста.
В случае, если обучающийся в трудном тесте наберет меньше баллов, чем в легком, отклонение от среднего для обоих тестов может быть примерно одинаковым из-за разницы в средних значениях. Соответственно, если стандартные отклонения баллов в трудном и легком тестах одинаковы, то по двум тестам у данного студента будет определен одинаковый уровень знаний.
В действительности, такие идеальные результаты получаются достаточно редко. Кроме того, оценка уровня знаний в этом случае определяется характеристикой выборки испытуемых (какова та выборка, по которой оцениваются среднее и дисперсия).
Один и тот же студент получит разные оценки уровня знаний, если сравнивать его с разными выборками. Объем выборки, по которой оценивается среднее и стандартное отклонение первичных баллов испытуемых по данному тесту, всегда конечен. Возможности формирования идеально репрезентативной выборки ограничены - например, в нее могут не попасть люди определенного социального статуса. Кроме того, через несколько (десятков) лет оценки среднего и стандартного отклонения, полученные по такой выборке, могут уже не соответствовать результатам, полученным на новом поколении людей. Наконец, остается сформулированная в первом параграфе относительность оценки трудностей заданий (первичные баллы заданий продолжают зависеть от того, по какой выборке испытуемых они рассчитаны).
Эти проблемы попытался решить датский математик Г.Раш, работы которого перевели тестологию на третью - гипотетико-дедуктивно-экспериментальную стадию развития. Фактически переход тестологии на эту стадию развития связан с первыми попытками смоделировать процесс ответа на вопрос. Исторически первой теорией ответов на вопросы можно считать шкалограммный анализ Гуттмана (Sedow, Petzold, 1981).
Гуттман предположил (применительно к ситуации оценки знаний), что каждый человек характеризуется прямо не наблюдаемой (латентной) величиной уровня знаний. Каждому вопросу соответствует определенный порог сложности. Для того чтобы правильно ответить на вопрос, величина уровня знаний испытуемого должна превышать порог сложности данного вопроса. При этом, если уровень знаний опрашиваемого выше порога сложности данного вопроса, вероятность того, что данный человек правильно ответит на данный вопрос, принимается равной единице. Если уровень знаний ниже порога сложности вопроса, вероятность того, что данный человек правильно ответит на вопрос, принимается равной нулю. Точка, в которой уровень знаний испытуемого равен порогу вопроса с точки зрения математики, представляет собой бесконечно малый интервал. Данный испытуемый со своим уровнем знаний не может попасть в бесконечно малый интервал, а только в интервал конечной длины. Поэтому совпадение уровня знаний испытуемого и порога вопроса математически невозможно. Соответственно и вопрос о том, как испытуемый отвечает, если уровень знаний совпадает с порогом вопроса, оказывается математически некорректным.
Разработка алгоритмов моделирования ситуационных задач в практике обучения специалиста-психолога
Эти уравнения программа записывает в матричной форме. Стоящая слева матрица А содержит коэффициенты при неизвестных. Эта матрица умножается на вектор, составленный из неизвестных значений 5 и 0. Произведение матрицы и вектора дает другой вектор, компоненты которого - значения разностей 0i -5J, ранее рассчитанные программой из эмпирических данных по формуле 1п[р/(1 Р)] Поясним связь между матричной формой записи системы уравнений и обычной. Представим, что мы взяли вектор неизвестных (тот, что в левой части) и положили его боком на матрицу коэффициентов, как показано на картинке. Умножим каждый компонент вектора неизвестных на коэффициент, записанный прямо под ним в первой строке матрицы, и сложим умноженные на коэффициенты неизвестные. Матрица построена так, что все неизвестные кроме 5i и 0О умножаются на нулевые коэффициенты и уничтожаются. 5i умножается на -1 и превращается в -5ь 0о умножается на 1 и остается 0О. Сложив их, получаем 0О- 5i - левую часть первого уравнения. Правая часть первого уравнения - это первый (верхний) компонент вектора, стоящего в правой части. Умножая положенный на бок вектор неизвестных на другие строки матрицы и приравнивая получающиеся выражения к соответствующим компонентам вектора в правой части, получим все уравнения системы уравнений.
Последняя строка матрицы задает уравнение 0i+ 02+ 63...+ 6N=6, необходимое для того, чтобы число параметров было бы равно числу наблюдений.
Максимально возможное число уровней знаний N равно К+1, так как число возможных значений первичных баллов равно числу вопросов плюс еще один уровень знаний, соответствующий нулевому первичному баллу. Однако в реальной выборке некоторые значения первичного балла могут просто не встречаться. Поскольку они не встречаются, постольку не встречаются и соответствующие им 6. Программа не включает 6, соответствующие не встречающимся значениям первичных баллов в вектор неизвестных, соответствующие коэффициенты также не включаются в матрицу. Вектор решений (в правой части) становится короче, чем в случае наличия в выборке всех первичных баллов. То есть число уравнений в системе меньше, чем в случае наличия в выборке всех первичных баллов. Однако, поскольку неизвестных тоже меньше чем в этом случае, система может быть решена.
Отметим, что, если набор вопросов по дисциплине включает, к примеру, 225 вопросов и в выборке представлены все значения первичных баллов, система состоит из 50 401 уравнения. В программе для нахождения решения системы уравнений используется многомерный вариант метода наименьших квадратов (Стренг, 1980). Этот метод рекомендуется в специализированной литературе, посвященной IRT (Нейман, Хлебников, 2000). Исходя из матрицы коэффициентов А, строится транспонированная матрица А . Первая строка А представляет собой первый столбец А, вторая строка-второй столбец и т.д. Обозначим вектор неизвестных как х, а вектор решений уравнений (в правой части) как Ь. Метод наименьших квадратов дается выражением: (Ат А) х=Ат Ь
Произведение матрицы А и матрицы А тоже представляет собой матрицу. Чтобы найти число, которое стоит в конкретной клетке итоговой матрицы, необходимо умножить строку из первой матрицы (ту строку, в которой стоит эта конкретная клетка итоговой матрицы) на столбец второй матрицы (тот столбец, в котором стоит эта же конкретная клетка итоговой матрицы).
Так, чтобы найти красно-зеленый элемент итоговой матрицы (строка 3 столбец 1) нужно обведенную строку первой матрицы умножить на обведенный столбец второй. АТ А Чтобы умножить строку на столбец, первый элемент строки умножают на первый элемент столбца, второй элемент строки умножают на второй элемент столбца и т.д. Сумма полученных произведений записывается в клетку итоговой матрицы.
Произведение А Ь (произведение матрицы на вектор) представляет собой вектор. Вычисление первого компонента результирующего вектора можно представить как умножение каждого компонента "положенного на бок" вектора b на соответствующий коэффициент из первой строки матрицы А . Сумма взвешенных таким образом компонентов b образует первый компонент результирующего вектора. Сочетая вектор b с остальными строками, находят остальные компоненты результирующего вектора.
Однако если матрица А могла иметь до 50 000 строк, матрица В имеет строк и столбцов одинаково. Она имеет N+K строк и столбцов. Чем меньше матрица, на которую умножается вектор х, тем проще решать соответствующую систему (здесь систему В х=с). Кроме того, если бы тестировалась не модель Раша, а другая модель, которая имеет параметров меньше, чем наблюдений, составленная для этой модели система А х=Ь не имела бы решения, так как вектор b определен с погрешностями. Погрешности возникают из-за того, что эмпирическая частота правильных ответов на вопрос отличается от теоретической вероятности в силу конечного объема выборки. Для такой модели метод наименьших квадратов находил бы такую оценку X компонент вектора х, что произведение А Х (произведение - вектор) было бы максимально близко вектору Ь.
Коррекция содержания банка заданий
К примеру, если испытуемый оценивает разности ощущений во всех возможных парах, составленных из набора в 9 стимулов, ему нужно оценить 32 разности. Если субъективное пространство одномерно, образы этих 9 стимулов характеризуются только 9 величинами ощущения. То есть параметров модели в 4 раза меньше, чем оценок расстояний (исходные данные избыточны). За счет этого, даже если использовать только порядок оценок расстояний, будет восстановлена интервальная шкала.
С. Паркер, Б. Шнейдер и Г. Канов (Parker S., Schneider В., Kanow G., 1975) провели эксперимент, в котором предъявлялись пары вертикальных линий разной длины. Испытуемых просили оценивать различие ощущений длин линий в каждой паре в баллах.
Перед началом эксперимента показывалась пара, образованная линиями в 10,3 см. и 28,6 см. Испытуемым сообщалось, что различие ощущений длин в этой паре равно 60 баллам.
Пусть A vFij=f(Rij). Если f - монотонная функция (большему написанному числу соответствует большее ощущение величины числа, что выглядит разумно), можно написать функцию Rij=g(A 4 ), причем g также монотонно (большему ощущению числа соответствует большая написанная оценка при том, что ощущение числа равно различию ощущений от стимулов).
Опираясь на предположение о монотонности функции g, S.Parker, B.Schneider, G. Kanow заключают, что матрица, в которой указаны только ранги балльных оценок различий, совпадает с матрицей, в которой были бы упорядочены различия в ощущениях длины в парах. Рассматривая матрицу балльных оценок различий как задающую упорядочение различий в ощущениях длины, они обрабатывают ее не метрическим многомерным шкалированием, предположив, что образы расположены в одномерном субъективном пространстве и получают интервальное представление шкалы субъективной длинны.
Показано что: +b= d Sm (16), где Х+Ъ - интервальная шкала субъективной длины, m (показатель степени функции преобразующей длину в ощущение длины) оказалось равно примерно 0,5. В экспериментах по оценке величины отдельных линий показано (Стивене С.С, 1974), что физическая длина линии и балльная оценка длины связаны между собой степенной функцией с п=1.
Следовательно, работа B.Schneider и др. указывает на правоту Д. Кертиса: если ощущение длины линии прямо пропорционально квадратному корню из физической длины, и предположить, что написанное число прямо пропорционально квадрату ощущения числа, то получим для связи физической длины и числа степенную функцию со степенью 1. (Именно такая функция и наблюдается в действительности для связи длины линий в см с числовыми оценками длины). Интересно, что ощущаемое число тогда - квадратный корень из физической длины, то есть психофизические функции для длины и численного ряда совпадают.
Если и длина (в см) и численный ряд преобразуются в субъективное ощущение длины и числа соответственно через одну и ту же операцию - извлечение квадратного корня, значит, нет разницы, как эксперту выносить оценку: в виде длины или в виде числа.
Дадим обоснование для нашего выбора длины как модальности для ответов. В методе прямой оценки эксперт должен: 1) Найти отношение уместности оцениваемого варианта ответа к уместности эталона. 2) Найти отношение текущей оценки (той оценки, которую эксперт готов ввести сейчас) к используемому модулю. 3) Констатировать равенство этих двух отношений, в противном случае изменить оценку.
Тривиального способа облегчить первое действие - рефлексию отношения уместностей - неизвестно. Однако второе действие (нахождение отношения оценки к модулю) может быть сделано легче, если оценки - это длины линий, и линия-модуль отображается под линией оценкой.
Вид экрана оценивания показан на скриншоте (рис. 6). В середине экрана показан оцениваемый узел и его варианты ответов. Инструменты для оценивания сосредоточенны в лиловой рамке. Наведя курсор мыши на оцениваемый вариант, эксперт заставляет рамку перемещаться под этот вариант. Передвигая курсор мыши по верхней паре полосок (верхняя красно-зеленая пара), эксперт регулирует длину линии-оценки. Когда курсор мыши находится на зеленой полоске, в лиловой рамке отображается вариант ответа, заданный как эталон верного ответа (вверху рамки, прямо под красно-зелеными полосками), а ниже - соответствующий эталонному варианту узел. На нижней зеленой полоске тогда отображается модуль, присвоенный эталону правильного ответа. Когда курсор мыши находится на красной полоске, в лиловой рамке отображается вариант ответа, заданный как эталон ошибки, а под эталоном ошибки - соответствующий ему узел. На нижней красной полоске тогда отображается модуль, присвоенный ошибке. Клик мышью фиксирует оценку варианта, а кнопка "Назад" возвращает эксперта к окну с графом симуляции.
Уже вынесенные оценки отображаются как в окне экспертизы, так и в окне с графом симуляции (рис.7) в виде отрезков, расположенных в прямоугольниках вариантов ответов, прямо под текстом. Каждая черточка начинается посередине прямоугольника. Отрезки у тех вариантов, что верны, - зеленые и направлены вправо. У тех вариантов, что были признаны ошибками, отрезки красные, и направлены влево.
Длины отрезков прямо пропорциональны длинам тех линий, что эксперт проводил, когда выносил оценки. Так как отрезки преобразуются мозгом согласно той же функции квадратного корня, ансамбль ощущений уместности, возникающий при просмотре графа, совпадает у эксперта с ощущениями уместности, которые переживались, когда эксперт выносил оценки.
Экспериментальная оценка профессиональных навыков с помощью макета автоматизированной системы моделирования ситуационных задач
Приросту AS физической интенсивности стимула соответствует прирост АЕ ощущения. Это тот минимальный прирост ощущения, который замечается субъектом.
Одна из трактовок работы человека-наблюдателя гласит, что некоторые приросты ощущения не замечаются из-за того, что каждое ощущение -величина, подверженная случайной ошибке. Соответственно не замечаются и некоторые приросты величины стимула (не замечаются приросты ощущения, вызванные данными приростами стимула, так как эти приросты не достигают критической величины АЕ. По случайным причинам прирост ощущения оказался мал). Для простоты предположим, что ощущение от базового (меньшего) стимула не флюктуирует.
В случае величины AS , AS может определяться как такой прирост стимула, который замечается в 75% случаев. Обычно строят психометрическую кривую, показывающую зависимость вероятности обнаружения прироста физической интенсивности (ответа "больше") от этого прироста физической интенсивности. Можно приблизить психометрическую кривую кумулятой гауссовой функции и оценить стандартное отклонение этой функции, это другая мера AS, связанная с первой мерой прямой пропорциональностью. Предположим, по абсциссе отложена не физическая интенсивность, а величина ощущения. На ординате такой кривой - вероятность того, что прирост ощущения превысил критическое значение АЕ. Фактически, поскольку и прирост ощущения, и прирост стимула изменяются в весьма узких пределах относительно всего диапазона возможных ощущений и стимулов, можно приблизить в этом диапазоне функцию, связывающую ощущение со стимулом отрезком прямой. Следовательно, на обычной психометрической кривой по абсциссе отложены приросты стимула, т.е. величины прямо пропорциональные приростам ощущения. Следовательно, стандартное отклонение гауссовой функции, приближающей психометрическую кривую и выраженное в единицах S прямо пропорционально стандартному отклонению ощущения. А так как стандартное отклонение гауссовой функции линейно связано с AS , то и стандартное отклонение ощущения линейно связано с AS. Если оценка - мера ощущения, то стандартное отклонение выборки прямых оценок, данных стимулу наблюдателем, прямо пропорционально стандартному отклонению ощущения. Тогда стандартное отклонение оценок линейно связано с AS:
Это равенство открывает возможность измерять в физических единицах такие стимулы, которые трудно измерить физическими приборами. В книге (Худяков А.И., 2013) описан эксперимент по прямой оценке приятности фотографий. Исходя из результатов опыта, по абсциссе графика откладывались стандартные отклонения оценок. Так как стандартные отклонения пропорциональны физической мере стимула, абсцисса образовывала физическую (как ее называет автор, квазиобъективную) шкалу. По ординате откладывались средние оценки каждого стимула, образующие меру ощущения. Плавная линия, соединяющая экспериментальные точки, образовывала психофизическую функцию, связывающую стимулы с ощущениями. Эта функция монотонно возрастала, как и обычные психофизические функции, опирающиеся на физические измерения.
Стимулы-фотографии были изображениями пары людей в бытовой обстановке. На каждой фотографии была измерена площадь прямоугольника, который вмещал в себя изображение пары. Квазиобъективные значения приятности монотонно росли при увеличении площади значимой части изображения. Основываясь на этом факте и на монотонности психофизической функции, автор заключает, что квазиобъективная шкала представляет собой физическую шкалу (возможно, результат вычислений над изображением).
Применим эти достижения к экспертной оценке в образовательном тестировании. Пусть каждый вариант ответа оценивается несколькими экспертами. Каждый эксперт оценивает каждый вариант несколько раз. Пусть оценки разных экспертов значимо не различаются. Рассчитав стандартное отклонение оценок "усредненного эксперта", мы сможем построить квазиобъективную шкалу полезности. При этом оценкой можно считать также корень квадратный из длины проведенной экспертом линии, что позволит учесть уравнивание ощущений разных модальностей, лежащее в основе нашего метода оценки.
Тогда общая оценка деятельности тестируемого определялась бы суммой квазиобъективных значений уместности. Эта оценка зависела бы от физического мира, а не от человеческого произвола.
Если бы выборка экспертов разделилась по оценкам на несколько подвыборок, это можно было бы понять как указание на тот факт, что эксперты выделяют в вопросах разные квазиобъективные признаки.
Использовав экспертную оценку вариантов обычного теста знаний, можно было бы связать сложности вопросов, вычисленные с помощью IRT и по определению не зависящие от выборки тестируемых с квазиобъективными значениями уместности.
Наконец, можно выделить еще одну линию интенсивного развития метода. Эта линия опирается на философию конструктивного альтернативизма - признание существования множества толкований окружающего мира. Впрочем, мы можем считать, что разные понимания мира выделяют из физической реальности разные квазиобъективные шкалы. Знания состоят из понятий. Как знания студента, так и знания преподавателя (эксперта) можно описать на языке семантического пространства (СП). Оси такого пространства соответствуют признакам, в терминах которых человек осмысляет реальность (например, умно-глупо; хорошо-плохо), а понятия представлены точками в пространстве. Уместность и приятность - примеры осей СП.
Семантические пространства можно строить, используя методы экспериментальной психосемантики. Предлагается построить семантические пространства студентов и преподавателей, отражающие осмысление понятий из дисциплин психологического цикла.
Предполагается, что уровень знаний студента по дисциплине тем выше, чем больше пространство понятий студента похоже на пространство понятий преподавателя. Для гуманитарных дисциплин, в которых одним из критериев истины выступает опора на авторитет, такой подход оправдан, так как сходство семантических пространств показывает, что студент правильно усвоил основные концепции данной области знания. Возможно также автоматически выделять учащихся с необычным осмыслением гуманитарных дисциплин, дабы избежать "автоматизированного навязывания шаблонов" в гуманитарном образовании. Основная гипотеза предлагаемого исследования - для типичного учащегося большее сходство его семантического пространства с пространством эксперта определяет больший уровень знаний по результатам IRT шкалирования и/или прохождения ситуационных задач.