Автор: Пользователь скрыл имя, 04 Ноября 2012 в 09:48, контрольная работа
Определение степени трудности тестовых заданий является обязательной процедурой, с которой начинается анализ качества разрабатываемого теста. Основная цель анализа трудности заданий сводится к выбору оптимальных по сложности заданий, которые затем можно было бы упорядочить по нарастанию сложности.
Порядок работы:
1 . Разделить задачи из Таблицы № 4 на две части – нечетные (X) и четные (Y).
Таблица № 5
Форма протокола.
|
||||||
= |
|
= |
|
|
3. Вычислить стандартные отклонения для каждой части ( , ) по формуле:
– разность между значениями
варианты и средней
– количество задач в
нечетной и четной частях
4. Вычислить коэффициент полной корреляции между частями теста используя формулу Пирсона:
– разность между значениями
варианты и средней
– разность между значениями
варианты и средней
5. Вычислить коэффициенты надежности, используя следующие формулы:
а) Спирмана - Брауна:
б) Фланагана:
в) Кристофа:
где – коэффициент корреляции по Пирсону;
– стандартные отклонения нечетных и четных задач;
– общее количество задач в тесте.
На практике в большинстве применяемых методик редко удается получить значения коэффициентов надежности, превышающих 0,7-0,8. При , считается, что надежность теста является удовлетворительной.
6. Сделайте вывод о надежности теста Равенна.
4. ВАЛИДНОСТЬ ТЕСТОВЫХ ЗАДАНИЙ.
Теоретическая справка.
Валидность является одной из важнейших
характеристик
В целом реальную валидность теста
невозможно измерить, о ней можно
только лишь судить. Реальная валидность
теста раскрывается в результате
накопления значительного опыта
работы с тем или иным тестом.
Кроме того, реальная валидность многих
тестов и методик, особенно тестов интеллекта,
достижений, тестов для профориентации
и профотбора, личностных опросников,
изменяется со временем. Это связано
с тем, что происходит устаревание
возрастных статистических норм, изменением
социальных норм и образцов поведения,
методов обучения и содержания заданий,
требований к профессиям. Поэтому
необходим периодический
Для валидизации каждого вида диагностических процедур и отдельных тестов могут применяться различные виды валидности. Основными видами валидности являются конструктная валидность, критериальная валидность, очевидная валидность, валидность по возрастной дифференциации, прогностическая валидность, текущая валидность, содержательная валидность, эмпирическая валидность.
Цель задания: овладеть навыками расчета критериальной валидности с помощью х2-критерия.
Оснащение: условие задачи, микрокалькулятор.
Условие задачи.
Было проведено исследование достижений в обучении учащихся с помощью некой методики, состоящей из 20 заданий. Также были собраны данные об успеваемости той же группы учащихся за четверть. Всего в группе было 90 учащихся (N = 90). Дальше выборку учащихся разделили на 3 группы, в качестве критерия деления использовались данные об успеваемости:
Затем учащиеся каждой группы были поделены еще раз на 3 подгуппы, в качестве критерия деления выступили баллы, полученные по методики: балл ниже среднего, средний балл, балл выше среднего.
Полученные результаты отражены в таблице № 6.
Таблица № 6
Результаты исследования достижений в обучении
Балл по методике |
Учебные достижения на основе данных об успеваемости |
Σ | |||||
Низкие |
fe |
Средние |
fe |
Высокие |
fe | ||
Низкий |
I 20 |
10 |
II 5 |
III 5 |
30 | ||
Средний |
IV 5 |
V 15 |
VI 10 |
30 | |||
Высокий |
VII 5 |
VIII 20 |
IX 5 |
30 | |||
Σ |
30 |
40 |
20 |
90 |
Порядок работы:
Например, низкие учебные достижения имеют 30 учащихся от общей выборки, т.о. в процентном соотношении они будут составлять 33,3 %.
Например, балл «ниже среднего» получили 30 учащихся, 33,3 % от этого числа должны были попасть в группу, имеющую учебные достижения ниже среднего, т.о. 33,3 % от 30 составляет 10 – fe (т.е. 30 – это 100 %, х – это 33,3 %).
fo – фактические наблюдения численности (количество учащихся, которые попадают в группы по показателям учебной успеваемости);
fe – предполагаемая численность (количество учащихся, которые распределены на подгруппы по результатам тестирования и полученному баллу по методике).
fd – степень свободы;
k – число разрядов признака;
c – количество сравниваемых распределений.
Приложение 1
Граничные значения оценки критерия х2
Число степеней свободы, f |
Уровень значимости, р |
Число степеней свободы, f |
Уровень значимости, р | ||
1 % |
5 % |
1 % |
5 % | ||
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 |
6,635 9,210 11,341 13,277 15,086 16,812 18,475 20,090 21,666 23,209 24,725 26,217 27,688 29,141 30,578 |
3,841 5,991 7,813 9,488 11,070 12,592 14,067 15,507 16,919 18,307 18,675 21,026 22,362 23,685 24,996 |
16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 |
32,000 33,409 34,805 36,191 37,566 38,932 40,289 41,638 42,980 44,314 45,642 46,963 48,278 49,588 50892 |
26,296 27,587 28,869 30,144 31,410 32,671 33,924 35,172 36,415 37,652 38,885 40,113 41,337 42,557 43,773 |
6. СТАНДАРТИЗАЦИЯ ТЕСТОВЫХ ШКАЛ.
Теоретическая справка.
Стандартизация
тестовых шкал – это создание таких
критериев (таблиц), по которым можно
будет преобразовывать
Например, испытуемый выполнил 16 заданий теста математических достижений из 32 и получил за это 16 баллов из 32 максимально возможных. Таким образом, получается, что он выполнил половину всех заданий, – 50 %. Значит ли это, что его достижения можно оценить как СРЕДНИЙ УРОВЕНЬ? Ответ на этот вопрос будет зависеть от того, с чем именно мы будем сравнивать полученный испытуемым результат, с чем будем его соотносить. Если соотносить с максимально возможным баллом, то действительно можно будет сказать, что у испытуемого средний уровень математических достижений. Ну, а сели сравнить с результатами других испытуемых? Например, одинаковых с ним по возрасту, полу, социальному положению и т.п.? Вполне может оказаться, что в этом случае наш испытуемый имеет низкий или высокий уровень достижений. Все будет зависеть от того, сколько еще людей из сравниваемой выборки набрали такие же результаты, сколько – набрали ниже, сколько – набрали выше. Таким образом, во-первых, необходимо иметь данные о результативности выполнения теста определенной выборкой испытуемых, с которой мы будем соотносить наши результаты. А во-вторых, эти данные о результативности мы должны как-то разделить на равные уровни по степени результативности. При этом количество уровней может быть разным – 5 уровней результативности, 9, 10 или 100. И затем, сравнив полученные конкретным испытуемым баллы, мы можем определить его место в той выборке, с которой его соотносим. В данной лабораторной работе предлагается познакомиться с методами разделения распределения результативности выполнения теста на отдельные уровни.
Наиболее простым способом нормирования (разделения распределения на уровни) является шкала процентилей. Процентиль – это точка на числовой шкале, состоящей из 100 уровней. Ранг показателя в процентилях определяется процентным отношением в нормативной группе тех испытуемых, которые получили более низкий показатель. Например, 15 процентиль означает, что 15 % из нормативной выборки получили показатели ниже данного. Вычисление процентиля немногим сложнее, чем его определение. Оно выражается следующей формулой:
Pp – искомая величина на шкале процентилей;
L – фактическая нижняя граница интервала оценок, содержащего частоту rn;
pn – произведение общего количества данных n на относительную частоту (т.е. p/100);
fcum – накопленная к L частота;
f – частота оценок в интервале, содержащем оценку rn.
Расчет рекомендуется проводить по следующему алгоритму:
а) Упорядочить полученные результаты по возрастанию.
б) Каждому первичному результату приравнять его частоту, т.е. количество испытуемых получивших такой же результат;
в) Произвести накопление частот
г) Подставить значения в формулу.
Преподаватель предложил 30 учащимся контрольное задание, состоящее из 40 вопросов. В качестве оценки теста выбиралось количество вопросов, на которые были получены правильные ответы. Распределение частот различных результатов приводится в таблице № 7. Необходимо определить каков 25-й процентиль в группе 30 оценок, т.е. чему равен Р25. Р25 – это точка, ниже которой лежат 25 % 30 оценок.
Таблица № 7
Оценки по тесту и их частоты.
Оценки по тесту |
Частота f |
Накопленная частота fcum |
22 21 20 19 18 17 16 15 14 13 12 11 10 |
1 0 0 2 1 3 0 3 2 1 1 0 1 |
15 14 14 14 12 11 8 8 5 3 2 1 1 |
Шаг 1. 0,25n =0,25 × 15 = 3,75
Шаг 2. Найти фактическую нижнюю границу разряда оценок, содержащую испытуемого с оценкой 3,75 снизу: так как 3 человек имеют оценки 13 или меньше, а 5 – оценки 14 или меньше, то частота 3,75 лежит в интервале разряда оценок 13,25-14,25.
L = 13,5
Шаг 3. Вычесть накопленную к L частоту из 3,75
3,75 – 3 = 0,75
Шаг 4. Разделить результат 3-го шага на частоту f в интервале, содержащем оценку 3,75
Шаг 5. Прибавить результат 4-го шага к L
Р25 = 13,5 + 0,375 = 13,875 ≈ 13,88
Шкала
процентилей позволяет оценить
отдельный индивидуальный результат
относительно других индивидуальных результатов
в исследуемой выборке. Самым
большим недостатком шкалы
Информация о работе Психометрические характеристики диагностических методик