Меню

Показатели для различных групп испытуемых полученных при стандартизации теста



Показатели для различных групп испытуемых полученных при стандартизации теста

Сделанный К. М. Гуревичем вывод относительно тестов с полным правом может быть перенесен и на другие диагностические методики.

§ 1. Стандартизация

Диагностическая методика отличается от любой исследовательской тем, что она стандартизирована. Стандартизация — это единообразие процедуры проведения и оценки выполнения теста. Рассматривается она в двух планах:

§ как выработка единых требований к процедуре эксперимента;

§ как определение единого критерия оценки результатов диагностических испытаний.

Стандартизация процедуры эксперимента подразумевает унификацию инструкций, бланков обследования, способов регистрации результатов, условий проведения обследования.

К числу требований, которые необходимо соблюдать при проведении эксперимента, можно, например, отнести такие:

1) инструкции следует сообщать испытуемым одинаковым образом, как правило, письменно; в случае устных указаний они даются в разных группах одними и теми же словами, понятными для всех, в одинаковой манере;

2) ни одному испытуемому не следует давать никаких преимуществ перед другими;

3) в процессе эксперимента не следует давать отдельным испытуемым дополнительные пояснения;

4) эксперимент с разными группами следует проводить в одинаковое, по возможности, время дня, в сходных условиях;

5) временные ограничения в выполнении заданий для всех испытуемых должны быть одинаковыми и т. д.

Обычно авторы методики в руководстве приводят точные и подробные указания по процедуре ее проведения. Формулирование таких указаний составляет основную часть стандартизации новой методики, так как только строгое их соблюдение дает возможность сравнить между собой показатели, полученные разными испытуемыми.

Другим наиболее важным этапом в стандартизации методики является выбор критерия, по которому следует проводить сравнение результатов диагностических испытаний, поскольку диагностические методики не имеют заранее определенных стандартов успешности или неудачи в их выполнении.

Источник

Репрезентативность норм. Стандартизация.

Нормы – показатели для различных групп испытуемых, полученных при стандартизации теста. Репрезентативность норм – соответствие тестовых норм стандартизации тестовым нормам той популяции, на которой применяется тест.

Стандартизация теста, в свою очередь, представляет собой процедуру унификации, регламентации, приведения к единым нормативам процедуры и оценок теста. Благодаря стандартизации методики достигается сопоставимость полученных результатов у разных испытуемых, появляется возможность выражения тестовых оценок в относительных к выборке стандартизированных показателях, сопоставление таких оценок в разных методиках.

В психодиагностике следует различать две формы стандартизации:

1) стандартизацию самой процедуры проведения инструкций, бланков, способа регистрации, условий и т.п. Без стандартизации теста невозможно получить нормативное распределение тестовых баллов и, следовательно, тестовых норм;

2) стандартизацию шкалы, т.е. линейное преобразование масштаба нормальной (или искусственно) нормализованной шкалы. Смысл преобразований исходных тестовых оценок заключается в изменении характера их распределения, с тем, чтобы облегчить понимание и интерпретацию тестовых результатов. Например, через вычисление процентилей.

Процентиль — % испытуемых, результат которых ниже определенной первичной оценки (тот конкретный балл, который испытуемый получает за тест). Алгоритм вычисления:

1) упорядочивание сырых баллов (по возрастанию или по убыванию);

2) частота встречаемости конкретных баллов;

3) вычисление накопленных частот (группировка в определенный интервал);

4) вычисление процентилий.

Достоинства: 1) легко вычисляются; 2) подходят для любого теста. Недостатки: неравные единицы измерения.

Чаще всего используются три основных вида преобразований:

1) приведение к нормальному виду;

2) приведение к стандартной форме;

3) квантильная стандартизация.

Поможем написать любую работу на аналогичную тему

Источник

Стандартизация теста

Стандартизация (от англ. standard – типовой, нормальный) – унификация, регламентация, приведение к единым нормативам процедуры и оценок теста.

Методику, отвечающую требованиям валидности, надежности и дифференцированности, необходимо стандартизировать относительно выборки, на которой ее будут применять. При этом объективностьпсихологического теста в целом означает, что первичные показатели, их оценка и интерпретация не должны зависеть от поведения и субъективных суждений экспериментатора. Добиться объективности психологического теста можно при выполнении следующих условий:

1) единообразие процедуры проведения теста для получения сравнимых с нормой результатов;

2) единообразие оценки выполнения теста;

3) определение нормы выполнения теста для сопоставления с ними показателей, полученных в результате обработки данных тестирования (см. “третий этап стандартизации”).

Таким образом, различаются две формы стандартизации.

Первая связана с регламентацией процедуры обследования, унификацией инструкции, бланков обследования, способов регистрации результатов, условий проведения обследования, характеристик контингентов испытуемых.

Стандартизация психологического теста в данном случае включает определение и учет следующих элементов диагностической ситуации:

1) Условия тестирования (помещение, освещение и др. внешние факторы). Очевидно, что объем кратковременной памяти лучше измерять (например, с помощью субтеста повторения цифровых рядов в тесте Векслера), когда нет внешних раздражителей, таких как посторонние звуки, голоса и т.д.

2) Содержание инструкции и особенности ее предъявления (тон голоса, паузы, скорость речи и т.д.). Например, в тесте “10 слов” каждое слово должно предъявляться через определенный интервал времени в секундах.

3) Наличие стандартного стимульного материала. Например, достоверность полученных результатов существенно зависит от того, предлагаются ли респонденту изготовленные самодельные карты Г.Роршаха или стандартные – с определенной цветовой гаммой и цветовыми оттенками.

4) Временные ограничения выполнения данного теста. Например, для выполнения теста Равена взрослому респонденту дается 20 минут.

5) Стандартный бланк для выполнения данного теста. Использование стандартного бланка облегчает процедуру обработки.

6) Учет влияния ситуационных переменных на процесс и результат тестирования. Под переменными подразумевается состояние испытуемого (усталость, перенапряжение, тестовая тревожность – т.е. состояние, обусловленное действием мотива экспертизы и т.д.), нестандартные условия тестирования (плохое освещение, отсутствие вентиляции и др.), прерывание тестирования.

7) Учет влияния поведения диагноста на процесс и результат тестирования. Например, одобрительно-поощряющее поведение экспериментатора во время тестирования может восприниматься респондентом как подсказка “правильного ответа” и др.

8) Учет влияния опыта респондента в тестировании. Естественно, что респондент, который уже не в первый раз проходит процедуру тестирования, преодолел чувство неизвестности и выработал определенное отношение к тестовой ситуации. Например, если респондент уже выполнял тест Равена, то, скорее всего, не стоит предлагать ему его во второй раз.

9) единообразие оценки выполнения теста: стандартной интерпретации полученных результатов (это предполагает сравнение полученных показателей с нормой выполнения этого теста для данного возраста (например, в тестах интеллекта), пола и т.д. (см. ниже).

Во втором случае стандартизация психологического теста состоит в определении норм выполнения теста, а также преобразовании нормальной (или искусственно нормализованной) шкалы оценок в новую шкалу, основанную уже не на количественных эмпирических закономерностях, а на его относительном месте в распределении результатов в выборке испытуемых[4] .

Нормы разрабатываются для различных возрастов, профессий, пола и пр. Наличие нормативных данных (норм) в стандартизованных методах психодиагностики является их существенной характеристикой. Нормы необходимы при интерпретации тестовых результатов (первичных показателей) в качестве эталона, с которым сравниваются результаты тестирования. Например, в тестах интеллекта получаемый первичный показатель IQ соотносится с нормативным IQ (43, 44, 45 баллов в тесте Равена). Если полученный IQ респондента выше нормативного, равен 60 баллам (в тесте Равена), можно говорить об уровне развития интеллекта этого респондента как высоком. Если полученный IQ ниже, то низком; если полученный IQ равен 43, 44 или 45 баллам, то среднем.

Читайте также:  Можно ли забеременеть сразу после месячных и когда тест покажет

Определение норм для теста.

На этапе создания теста формируется некоторая группа испытуемых, на которой проводится данный тест. Средний результат выполнения этого теста в данной группе принято считать нормой. Средний результат – это не единственное число, а диапазон значений (см. схему 2: зона средних значений – 43, 44, 45 баллов). Существуют определенные правила формирования такой группы испытуемых, или, как ее иначе называют, выборки стандартизации.

Правила формирования выборки стандартизации:

1) выборка стандартизации должна состоять из респондентов, на которых в принципе ориентирован данный тест, то есть если создаваемый тест ориентирован на детей (например, тест Амтхауэра), то и стандартизация должна происходить на детях заданного возраста;

2) выборка стандартизации должна быть репрезентативной, то есть представлять собой уменьшенную модель популяции по таким параметрам, как возраст, пол, профессия, географическое распределение и т.д. Под популяцией понимается, например, группа дошкольников 6–7 лет, руководителей, подростков и т.д.

Распределение результатов, полученных при тестировании испытуемых выборки стандартизации, можно изобразить с помощью графика – кривой нормального распределения.Этот график показывает, какие значения первичных показателей входят в зону средних значений (в зону нормы), а какие выше и ниже нормы. Например, на схеме 2 изображена кривая нормального распределения для теста “Прогрессивные матрицы Равена”.

Схема 2. Кривая нормального распределения для теста “Прогрессивные матрицы Равена”

Оценки первичные (“сырые” баллы) – оценки, полученные испытуемым на начальном этапе обработки результатов тестовой методики. Обычно это сведения о количестве правильно решенных задач, числе попыток при их решении, реже – о времени выполнения заданий. Получение первичных оценок – формализованная процедура, заключающаяся обычно в подсчете совпадений с имеющимся кодом (ключом).

Иной тип оценок – профильные оценки – способ представления количественных результатов психодиагностической методики, при котором оценки по отдельным группам заданий, субтестам с помощью специальных приемов приводятся к соизмеримым единицам (единой шкале оценок) и отображаются на графике. Соизмеримость оценок достигается с помощью выравнивающих коэффициентов, унификации первичных оценок, преобразования стандартизированных оценок в шкалу с едиными значениями М и s.

Чаще всего в руководствах к тому или иному тесту можно встретить выражения нормы не в виде сырых баллов, а в виде стандартных производных показателей. То есть нормы к данному тесту могут быть выражены в виде Т-баллов, децилей, процентилей, станайнов, стандартных IQ и др. Перевод сырых значений (первичных показателей) в стандартные (производные) делается для того, чтобы результаты, полученные по разным тестам, можно было сравнивать между собой.

Дело в том, что первичные показатели по разным тестам нельзя сравнивать между собой по причине того, что тесты имеют различное внутреннее строение. Например, IQ, полученный с помощью теста Векслера, нельзя сравнивать с IQ, полученным с помощью теста Амтхауэра, так как эти тесты исследуют разные особенности интеллекта и IQ как суммарный показатель по субтестам складывается из показателей разных по строению и содержанию субтестов.

Стандартизация первичных, или “сырых” психологических показателей по какой-либо из методик осуществляется их преобразованием в стандартную шкалу. Производные показатели получаются путем математической обработки первичных показателей, а способ оценки результатов теста конкретным испытуемым путем установления его места на специальной шкале называется шкальными оценками. Шкала содержит данные о внутригрупповых нормах выполнения данной методики в выборке стандартизации.

Наиболее распространенными преобразованиями первичных оценок являются центрирование и нормирование посредством среднеквадратических отклонений.

Под центрированием понимается линейная трансформация величин признака, при котором средняя величина распределения становится равной нулю. Так, если при обследовании группы испытуемых с помощью вновь разрабатываемого теста получено значение средней арифметической 17 “сырых” баллов, то это величина может быть выбрана в качестве центра отсчета шкалы, в обе стороны от которой симметрично располагаются показатели х хср.

Процедура нормирования заключается в переходе к другому масштабу (единицам) измерения, который осуществляется по формуле:

где f (x) – теоретические частоты в эмпирической выборке, n – число членов выборки стандартизации, h – ширина интервала группирования данных в эмпирическом распределении, s – стандартное отклонение в выборке, f (l) – функция нормирования значений xi.

В качестве функции нормирования обычно выступает z – показатель (стандартный показатель), выражающий отклонение индивидуального результата xi в единицах, пропорциональных стандартному отклонению единичного нормального распределения.

Основными формами оценки результатов теста путем соотнесения с групповыми данными являются процентили, стандартные показатели, Т-показатели, станайны, стэны.

Процентиль – процентная доля индивидов из выборки стандартизации, результат которых ниже данного первичного показателя. Шкалу процентилей можно рассматривать как совокупность ранговых градаций при числе рангов 100 и отсчете от 1-го ранга, соответствующего самому низкому результату. 50-й процентиль (Р50) соответствует медиане распределения результатов, Р>50 и Р

Использование той или иной шкалы зависит от размаха распределения первичных показателей. Например, если опросник содержит 200 вопросов, то перевод “сырых” баллов в стэны будет являться сильным “ужатием”, что крайне неоправданно. Надо всегда стремиться в соразмерности “сырых” и стандартных баллов.

Переход от одной шкалы к другой или разработка новых шкал осуществляется через накопленную частоту или среднее арифметическое (х) и стандартное отклонение (s).

Простейшая линейная стандартизация тестового балла производится по формуле

где Z – стандартный балл на шкале Z (с центром 0 и отклонением 1s), Х – сырой балл по тесту, Хср. – средний балл по выборке стандартизации, Sx – стандартное отклонение по выборке стандартизации.

После получения стандартного балла Z можно перевести тестовый балл в любую стандартную тестовую шкалу, принятую в психодиагностике. Например, перевод в шкалу IQ переводится по формуле

Напомним, что в шкале IQ центр равен 100, а отклонение равно 15.

Если перевод требуется в шкалу “стенов” (от английского “standart ten” – стандартная десятка), то формула пересчета из шкалы Z выглядит так:

так как в шкале стенов центр равен 5.5, а отклонение равно 2.

Обобщенная формула перевода сырого балла в заданную стандартную шкалу имеет вид:

где Y – стандартный балл по произвольной шкале с центром М и отклонением Ss.

Для серьезных профессиональных тестов вместо линейной стандартизации используется более сложная процедура нелинейной нормализации (форсированный переход к нормальному распределению). В результате этой, более точной процедуры тест, как правило, снабжается “конверсионной таблицей” для перевода сырых баллов в стандартные баллы по заданной шкале. В ней приводится полный перечень соответствий между интервалами сырой шкалы и интервалами стандартной.

Читайте также:  Устойчивость или согласованность результатов теста при повторном его применении это

Таблица 1. Пример фрагмента конверсионной таблицы для перевода сырых баллов в стены

Сырой балл 0-6 7-8 8-9 10-13 14-16 17-19 20-22 23-24 26-30
Стены

После того, как балл по тесту стандартизирован, можно выносить диагностическое заключение. Общее правило таково: если стандартный балл Y превышает единицу “верхней” (или “высокой”) группы M+Ss, то данному испытуемому приписывается повышенное значение измеренного психического свойства. Например, про ученика говорят, что он является определенно более дисциплинированным, чем средний ученик в российской школе. Если же стандартный балл Y ниже границы “нижней” (“низкой”) группы M-Ss, то о данном испытуемом формулируется заключение, соответствующее низкому полюсу измеряемого свойства.

Если мы имеем дело с биполярным (двухполюсным) психическим свойством, например, “гибкость/ригидность”, то для “высокой” группы формулируется заключение как для “гибких” людей, а для “низкой” группы – как для ригидных людей. Соответственно средняя группа из центрального интервала признается нейтральной, неполяризованной по данному тестовому параметру.

Проверка репрезентативности тестовых норм осуществляется с помощью анализа так называемого распределения частот тестовых баллов. Одним из простейших методов является проверка нормальности этого распределения. Более сложный и универсальный подход предполагает сравнение двух распределений, построенных для двух случайных половин выборки стандартизации. Если два этих распределения оказываются практически тождественными, то можно говорить о репрезентативности тестовых норм.

Введение понятия репрезентативности позволяет дать более строгое определение того, что такое стандартизация теста. О стандартизации теста в строгом смысле можно говорить, когда задана полная таблица соответствия сырой шкалы и стандартной шкалы и содержание этой таблицы обосновано статистической процедурой распределения тестовых баллов на выборке стандартизации.

Кроме статистических тестовых норм в современных тестах часто используются критериальные нормы. Они особенно важны для сферы образования. При построении так называемого “теста по критерию” шкала сырых тестовых баллов калибруется особыми реперными точками, которые соответствуют уровням рассчитанной вероятности достижения какого-то критерия (заданной эффективности деятельности).

Например, если оператор АЭС был точен в 45 из 48 процентов заданий, то это может еще и не соответствовать требуемому уровню критериальной “надежности оператора” (в данном случае “надежность” – измеряемое свойство), а вот если он был точен в 47 из 48 заданий, то это может считаться достаточным уровнем “надежности”. Таким образом, при построении диагностических заключений по критериальным тестам мы интересуемся не степенью отклонения балла от центра шкалы, а достижением или недостижением какого-то критического уровня на шкале.

Результаты, отличающиеся от нормального распределения, переводят в стандартную шкалу через процент распределения. При этом их количество должно быть достаточно большим (по крайней мере, больше 100).

Например, методику необходимо стандартизировать в 10-балльную шкалу (от 0 до 10) со средним 5 и стандартным отклонением 2. Для этого протестировали 300 человек.

Расчет шкалы производится следующим образом: из всего массива абсолютных показателей (“сырых” баллов) выделяется 0,9% самых лучших и 0,9% самых худших показателей и им присваиваются соответственно баллы 10 и 0. Затем из оставшихся выделяется по 2,8% лучших и худших результатов и соответственно присваиваются баллы 9 и 1 и т.д.

Таблица 3. Перевод сырых показателей в стандартные баллы (десятибалльная шкала)

Процент 0,9 2,8 6,6 12,1 17,4 19,8 17,4 12,1 6,6 2,8 0,9
Шкала

Для перевода сырых показателей в стандартизированные баллы используют также сигмальную шкалу, когда высокому, среднему и низкому уровням выраженности оцениваемого свойства соответствует область значений, находящихся в интервалах больше или меньше Хср. s (высокий и низкий уровни), а также в пределах этого интервала (средний уровень).

Источник

Стандартизация теста и интерпретация результатов тестирования

Аннотация

В статье рассмотрены вопросы стандартизации теста и проверки его качества при помощи инструмента дискриминативности (проверка дифференцирующей способности теста и отдельного задания). Ход проверки теста продемонстрирван на примере.

Стандартизацией теста называется комплекс взаимосвязанных между собой процедур, позволяющий создать для всех испытуемых равные условия, и подразумевает единообразный подход к процедуре проведения и оценивания результатов выполнения испытуемыми заданий.

Определим перечень рекомендаций по организации и проведению контрольного мероприятия в форме тестирования испытуемых:

  1. Ни одному испытуемому не может даваться никаких даже минимальных преимуществ перед другими.
  2. Группа тестируемых, перед прохождением тестирования, должна быть «выровнена по мотивации».
  3. Тестирование различных групп испытуемых должно занимать равные временные промежутки и проводится при одинаковых внешних условиях. Если тест будет вторично использоваться в условиях, которые уже существенно отличаются от тех, где он был изначально проведен, то обязательно потребуется некоторое соотнесение этих условий друг с другом или адаптация теста к новым измененным условиям.
  4. Содержание теста должно соответствовать требованиям стандартов образования.
  5. Все испытуемые выполняют одни и те же задания (параллельные, подобные формы заданий).
  6. В тест включаются задания одной формы либо различных форм с соответствующими весовыми коэффициентами, значение которых получены статистическим путем.
  7. Установление норм. Норма теста – это некий условно сформированный уровень, который можно принять за средний, отражающий развитие некоторой, возможно большой, совокупности людей, условно похожих на данного испытуемого по определенному ряду выявленных, в ходе дополнительного исследования, социально-демографических характеристик. В большинстве случаев тестовый показатель индивидуума мы можем выявить на основе сравнения с оценками, полученными по данному тесту другими людьми. Норма теста обычно будет, определяется в результате тестирования большой выборки испытуемых определённого возраста и пола, с последующим усреднением полученных оценок с их последующим дифференцированием по группам: разделением по возрасту, полу, социальному положению, уровню урбанизации, психофизическим показателям и ряду многих других показателей необходимых в контексте именно данной дифференциации. При этом, данная группа людей будет, называется выборкой стандартизации и станет служить показателем для установления норм. Всякая норма, как правило, со временем может, изменяется коррелируя вместе с естественными или другими взаимосвязанными с ней изменениями, поэтому есть правило, согласно которому нормы теста, особенно интеллектуального, должны пересматриваться, как минимум один раз в пять лет. Система подсчета баллов, на основе норм, должна быть предварительно разработана и применена ко всем ответам испытуемых без исключения.
  8. Проверка тестовых работ должна быть строго регламентирована, а именно проверяющим даются эталоны правильных ответов и стандартизованные критерии оценок.
  9. Стандартизация теста так же заключается в приведении процедуры оценок к общепринятым в учебной среде нормативам.
  10. Тест должен быть обязательно социокультурно адаптирован т.е необходимо соблюдать соответствие тестовых заданий и оценок, которые испытуемый получает по этим заданиям, особенностям культуры, сложившимся в том или ином обществе, где данный тест используется, если он заимствован в другой стране.
  11. Для полного обеспечения единообразия условий проведения теста, разработчик описывает подробные указания по проведению каждого вновь разработанного теста.
  12. Учет «внешних факторов». Например, зачитывая вслух инструкцию или задание, нужно принимать во внимание тон голоса, скорость речи, интонацию, паузы и выражение лица.
  13. Тест должен сопровождаться руководством для пользователя, в котором описываются:
    • назначение теста и его описание;
    • показания для применения;
    • состав теста;
    • информация об апробации теста (цели, объем и состав выборки, основные статистические характеристики);
    • инструкция по процедуре проведения тестирования;
    • ключи;
    • трудность и дискриминативность теста («дискриминативность» — «тонкость измерения», т.е. способность дифференцировать тестируемых относительно «минимальных» и «максимальных» результатов теста, дифференцирующая способность);
    • данные о надежности и валидности теста;
    • другие статистические материалы;
    • правила и инструкции для обработки данных;
    • устройство шкалы, правила и особенности интерпретации данных.
Читайте также:  Откуда был родом андрей соколов тест

Таким образом, если тесты стандартизированы, то мы можем сказать, что возможно провести сравнение показателей, полученные одним испытуемым, с таковыми в генеральной совокупности или соответствующих группах. Тем самым достигается адекватная интерпретация показателя отдельного испытуемого.

Дискриминативность измеряется показателем дельта Фергюсона и принимает максимальное значение при равномерном (прямоугольном) распределении показателей (d=1).

При разработке теста, безусловно, необходимо стремиться к тому, чтобы его задания как можно точнее могли измерять проверяемое свойство. Например, если в результате проведенного обследования почти все испытуемые получили примерно одинаковые результаты, то это может означать только то, что тест проводит измерения очень грубо и неточно, без особых градаций различающих особенности испытуемых. Чем большее количество градаций результатов можно получить при помощи теста, тем выше будет его разрешающая способность. Мера тонкости измерения (или степень диффиренцируемости результатов) теста называется дискриминативностью.

Дискриминативность теста измеряется показателем дельта Фергюсона (рис.1):

Рис.1. Показатель дельта Фергюсона

В данной формуле введены следующие обозначения: N – количество испытуемых , n – количество заданий, f i — частота встречаемости каждого показателя. Наименьшая дискриминативность теста определена при δ = 0, наибольшая при δ = 1.

Рассмотрим простейший пример расчета индекса дискриминативности заданий.

Проводится тестирование по теме «Информационные процессы». В тестировании принимают участие 7 человек, количество заданий — 4.

Цель задания: овладение навыком расчета индекса дискриминативности.

  1. Составьте таблицу частот встречаемости каждого показателя.
  2. Подсчитайте, как часто встречаются значения показателей для данного теста.
  3. Возведите эти числа в квадрат и просуммируйте их.
  4. Прибавьте единицу к количеству заданий.
  5. Возведите в квадрат количество испытуемых.
  6. Помножьте количество заданий на результат шага 4.
  7. Теперь у нас есть все элементы формулы. Подставьте их и рассчитайте коэффициент.
  8. Сделайте вывод о дискриминативности теста «Информационные процессы».

Оснащение: микрокалькулятор или компьютер, таблица первичных данных (рис. 2).

Рис. 2 – таблица первичных данных отражающая результаты в баллах у семи испытуемых

На основании таблицы первичных данных получим таблицу частот встречаемости каждого показателя (рис. 3).

Рис.3 – Таблица частот встречаемости каждого из показателей теста выполненная на основе анализа предложенной в рис.1 таблицы частотных данных.

Вычислим квадраты частот (рис.4):

Рис. 4 – таблица квадратов частот определенная по таблице частот показателей теста.

Произведем вычисления показателем дельта Фергюсона, где n=4 (количество заданий), N=7 (количество испытуемых), N 2 =49 (рис. 5).

Рис. 5 – Вычисление показателя дельта Фергюсона

На основании проведенного вычисления сделаем вывод: δ = 0,97 данный показатель указывает на высокую дискриминативность теста «Информационные процессы», так как наибольшая дискриминативность при δ = 1. Показатель δ = 0,97 приближается к единице.

Дискриминативность или дифференцирующая способность как показатель отражает общую способность созданного исследователем теста отделять испытуемых с высоким общим баллом по тесту от тех, кто получает низкий балл и позволяет проверить качество созданных заданий в тесте.

Для проверки качества отдельных заданий будем использовать метод крайних групп. Данный метод позволяет определить может ли задание дифференцировать учащихся. Задания, на которое одинаково хорошо могут ответить испытуемые, как с высокими, так и с низкими способностями, не обладает хорошей дифференцирующей способностью. Таким образом, цель использования на практике данного метода выражается в удалении некачественных заданий.

Для определения дифференцирующей способности задания будем использовать формулу метода крайних групп (рис. 6).

Рис. 6 – Формула для вычисления показателя, отражающего дифференцирующую способность задания методом крайних групп с расшифровкой составляющих

Опишем показатель интерпретации, полученный в результате вычисления результата:

a) если D в промежутке от 0,3 до 1 – задание эффективно (обладает высокой дифференцирующей способностью среди испытуемых, качество задания высокое);

b) если D в промежутке от 0,1 до 0,3 – задание обладает низкой степенью дифференциации (задание «слабое», его рекомендовано удалить и заменить другим);

с) если D меньше 0,1 – задание не качественное (оно должно быть удалено и заменено другим).

Рассмотрим простейший пример расчета показателя дифференцирующей способности по методу крайних групп.

Было проведено тестирование в группе из 30 испытуемых. Количество заданий — 10. Полученные результаты приведены в таблице частот встречаемости показателей (рис. 7). Цель исследования: необходимо проверить качество задания № 1.

Рис. 7 – Таблица частот встречаемости показателей теста (исходные данные для проведения вычисления)

Проведем вычисления основных индексов, которые нам понадобятся в основной формуле. Определим 27% от количества испытуемых для создания крайних групп. Примерно получим 8 испытуемых (округлим результаты). Таким образом, мы возьмем 8 человек набравших малое количеств баллов (в нашем примере 0,1,2,3 балла) – так сформирована слабая группа и 8 человек набравших наибольшее количество баллов (в нашем примере – 9,10 баллов) – так сформируем сильную группу. Теперь проверим, как эти испытуемые отвечали на задание № 1 (рис. 8).

Рис. 8 – результаты выполнения исследуемого задания (задания № 1) испытуемыми из крайних групп (сильная и слабая группа).

Приведем данные для подстановки в формулу метода крайних групп (рис. 9).

Рис. 9 – Индексы крайних групп

Подставим данные и получим следующий результат (рис. 10).

Рис. 10 – Вычисление показателя метода крайних групп.

На основе полученных данных мы можем сделать вывод: задание № 1 в тесте является эффективным, так как показатель находится в диапазоне от 0.3 до 1.

Таким образом, стандартизация теста является целенаправленным процессом позволяющим определить условия для качественного прохождения испытаний теста и сделать тест психологически комфортным при прохождении для испытуемых. Стандартизация теста наиболее важна и в тех случаях, когда осуществляется сравнение показателей обследуемых. При этом важна выработка нормы, или нормативных показателей. Для получения стандартных норм нужно тщательно отобрать большее количество испытуемых в соответствии с ясно обозначенным критерием. Интерпретация результатов тестирования будет иметь значимых характер только в том случае если сам тест был создан качественно, одним из показателей данной характеристики может является и дискриминативность как теста в целом так и каждого задания в отдельности.

Источник