Психометрические основы психодиагностики: основные этапы конструирования теста

Автор: Пользователь скрыл имя, 10 Января 2011 в 16:41, лекция

Описание работы

Экстернальная стратегия эмпирична по своей сути и основывается на сравнении'контрастных групп. Ни одна из названных стратегий не может быть рассмотрена как предпочтительная. Вполне естественно, что многие разработчики личностных опросников комбинируют эти стратегии, стремясь, например, сочетать возможности оценки личности, достигаемые дедуктивной стратегией, с широким использованием разнообразных процедур анализа заданий (индуктивная стратегия).

Скачать полностью (57.00 Кб) Сколько стоит заказать работу?

Работа содержит 1 файл

4Психометрические основы психодиагностики.docx

— 59.18 Кб (Скачать)

4Психометрические основы психодиагностики: основные этапы конструирования теста

Психометрические основы психодиагностики: основные этапы конструирования теста Задача методики заключается не только в том, чтобы научиться измерять, но и в том, чтобы видеть, мыслить, связывать... Ж С. Выготский Абсурд может найти свое выражение как в словесной, так и в цифровой форме. Однако знание логики является надежной гарантией от некритичесКо-го принятия словесного абсурда, а знание статистики представляет собой лучшую защиту от абсурда цифрового. Дж. Гласе Дж. Спаяли В многочисленных учебниках и пособиях по психодиагностике, изданных на разных языках, всегда присутствует глава, посвященная статистическим методам, наиболее широко используемым при разработке тестов, их стандартизации, а также для оценки надежности и валидности. Кроме того, сегодня существует множество легкодоступных работ по математической статистике для психологов. Исходя из этого мы не сочли необходимым повторение таких азбучных для психолога статистических понятий, как ╚нормальная кривая╩, ╚мода╩, ■╚медиана╩ и т. д. Напомнить читателю об основных психометрических процедурах мы решили на примере основных этапов конструирования теста, а также рассмотрения конкретного случая изучения надежности русскоязычной версии одного из весьма популярных у нас опросников ≈ опросника 16 факторов Кеттелла. Как известно, психологический тест может быть охарактеризован как эффективный в том случае, если он удовлетворяет следующим основным условиям: 1) использование шкалы интервалов; 2) надежность; 3) валидность; 4) дискриминативность; 5) наличие нормативных данных. Разумеется, конструирование тестов, относящихся к разным диагностическим подходам (о подходах см. гл. 2), имеет, неемё&ря наЛёобходимость соблюдения общих требований к этому процессу, определенную специфику. В этой главе мы обратимся к рассмотрению основных проблем конструирования личностных опросников, которые относятся к наиболее употребительным инструментам психологической диагностики. Обычно выделяются три главные стратегии в конструировании личностных опросников:'дедуктивная, индуктивная и экстернальная (Burisch, 1984). Дедуктивная или содержательная стратегия базируется на теоретических представлениях о личности, ее структуре и функционировании. Разработчик теста конструирует задания, с помощью которых, как предполагается, будет оцениваться определенный психологический конструкт. Вторая стратегия ≈ индуктивная, предполагает использование факторного анализа или других статистических процедур, основанных на корреляционных связях. Главная особенность индуктивной стратегии состоит в том, что исследователь как бы позволяет данным говорить самим за себя. Экстернальная стратегия эмпирична по своей сути и основывается на сравнении'контрастных групп. Ни одна из названных стратегий не может быть рассмотрена как предпочтительная. Вполне естественно, что многие разработчики личностных опросников комбинируют эти стратегии, стремясь, например, сочетать возможности оценки личности, достигаемые дедуктивной стратегией, с широким использованием разнообразных процедур анализа заданий (индуктивная стратегия). 3.1. Определение количества заданий (спецификация теста) Прежде чем приступать к созданию теста, необходимо четко знать, для чего он нужен. Ясный ответ на этот вопрос ≈ необходимое условие для работы. Поэтому первым шагом будет формулирование цели будущего теста. После этого следует обратиться к разработке спецификации будущего теста. Наиболее удобно сделать это в виде таблицы, в которой по горизонтали будут располагаться содержательные области, которые предполагается измерять, а по вертикали ≈ их манифестации, или пути, по которым содержательные области могут проявляться. Например, при конструировании ╚опросника супружеского статуса╩ Дж. Руст и С. Голомбок (Rust, Golombok, 1988) основывались на опросе экспертов, в качестве которых выступали семейные терапевты и консультанты, а также на данных, полученных от клиентов этих специалистов. Экспертов просили назвать те области взаимоотношений между мужчиной и женщиной, которые они полагали наиболее важными для гармоничного брака. Информация от клиентов позволила обнаружить те проблемные зоны семейной жизни, в которые супруги хотели бы внести изменения. На этой основе были выделены такие содержательные области, как ╚совместные интересы и степень зависимости≈независимости╩, ╚вербальная и невербальная коммуникации╩, ╚доверие и уважение╩ и др. Ясное понимание цели будущего теста, естественно, облегчает построение перечня того, что предстоит измерять. При спецификации манифестаций важно обеспечить выделение различных форм их реализации. Так, при конструировании вышеупомянутого опросника ∙╚установки и чувства, проявляющиеся в отнршениях╩ рассматривались как манифестации ╚вербальных и невербальных коммуникаций╩ между супругами. Из практических соображений обычно по каждой оси разрабатывается от 4 до 7 категорий. Меньшее число категорий часто приводит к созданию слишком узкого опросника, а большее может сделать обременительным процесс конструирования опросника. В итоге получается своего рода решетка, количество ячеек в которой будет равно количеству планируемых для изучения параметров, умноженному на количество их поведенческих манифестаций (табл. 3.1). При разработке опросников обычно считают, что решетка размером от 16 до 25 ячеек (например, 4 х 4,4 х 5,5 х 4 или 5x5) считается идеальной для той длины теста, который вполне реально сконструировать, предъявить и обработать. Далее необходимо определить, сколько заданий, например вопросов, должно быть создано для каждой из ячеек. При решении этой задачи следует руководствоваться тем, насколько важным представляется исследователю измерение одного из параметров сравнительно с Другим или другими. В решетке, приведенной в табл. 3.2 (Rust, Golohibok, 1989), допускается, что содержательным областям, обозначенным как А и B следует приписать 40-%-ный вес, а Си D ≈ 10-%-ный. В то же время каждой манифестации A,B,C uDприписывается 25-%-ный вес. Необходимо обратить внимание на то, что в целом процентный вес всех содержательных областей (по горизонтали) и всех манифестаций (по вертикали) должен составлять 100%. Такое расположениепроцентных весов подскажет, какую часть от всех заданий следует создать для каждой ячейки. Следующий шаг состоит в том, чтобы решить, какое количество заданий Должно быть включено в тест. При этом необходимо учитывать такие факторы, как размер решетки и время, предполагаемое для выполнения заданий. Хорошо известно, что в определении количества заданий перед исследователем возникает дилемма: обеспечение, с одной стороны, надежности теста, что требует увеличения заданий, а с другой стороны ≈ минимизация количества заданий для обеспечения эффективной работы испытуемого с ними, подразумевающей прежде всего поддержание концентрации внимания в ходе обследования. Так, для достижения удовлетворительной надежности опросника требуется не менее 20 заданий, выполнение которых обычно занимает не более 10 минут. Наконец, важную роль в определении количества заданий теста играют особенности того контингента, который предполагается обследовать, ббычно при проводимом разработчиками пилотажном исследовании количество заданий предварительного варианта теста должно быть по крайней мере на 50 % больше числа тех, которые будут включены в окончательную версию. После того как определен процентный вес каждой из ячеек решетки и установлено общее количество заданий для пилотажной версии теста, нетрудно подсчитать, сколько заданий должно быть разработано для каждой ячейки. Нижеприведенная решетка (Rust, Golombok, 1989) содержит то количество заданий для каждой ячейки, которое необходимо для пилотажного исследования с помощью опросника, состоявшего из 80 вопросов (табл. 3.2). Для того чтобы подсчитать количество заданий для каждой ячейки, умножают общее число заданий, предназначенных для измерения некоторого свойства личности, на процентный вес его поведенческих проявлений. Например, количество заданий для левой крайней ячейки решетки равно отношению 25% к 32 заданиям, что составляет 8 заданий ≈ 25/100 х 32 = 8. Если не получается целое число заданий для каждой ячейки, следует его округлить. 3.2. Разработка заданий Прежде всего нужно указать на то, что в каждомШйании может быть задан только один вопрос ИЛИ сформулировано одно у верждение. Нельзя допускать появления заданий, в которых прийЯ^тствуют формулировки типа: ╚для этого человека и других людей╩, ╚как и другие╩ и т; п. Каждое задание (вопрос) должны быть сформулированы предельно ясно и просто. Необходимо избегать двусмысленных формулировок и придерживаться, насколько это возможно, наиболее простых вариантов ответов. В то же время необходимо стремиться к тому, чтобы обследуемые не могли догадаться о том, для измерения какой черты предназначено то или иное задание. В противном случае ответы будут отражать их точку зрения на выраженность у себя этой черты, а не реальное положение дел. Задания должны отражать конкретные, а не общие аспекты изучаемой области поведения. Например, вместо задания ╚Нравится ли вам спорт?╩ лучше использовать более конкретный вопрос: ╚Вы регулярно играете в какую-нибудь спортивную игру?╩. Везде, где только возможно, следует избегать употребления таких слов, как ╚часто*, ╚редко╩ и т. п. Иначе говоря, в формулировке заданий нужно очень осторожно прибегать к словам, указывающим на частоту действий. То, что одним испытуемым интерпретируется как -╚часто╩, для другого совсем не так. Примером может служить вопрос ╚Часто ли вы употребляете спиртные напитки?╩, ответ на этот вопрос не отражает реального положения дел, а характеризует субъективное мнение обследуемого (разумеется, в ряде случаев именно это мнение и интересует исследователя!). Также следуетизбегать терминов, выражающих чувства. Лучше представить задание в контексте поведения. Например, задание ╚Нравится ли вам чтение художественной литературы╩ лучше заменить на ╚Читаете-ли вы художественную литературу постоянно?╩. Очень важно, чтобы любой из предлагаемых вариантов ответа воспринимался испытуемым как возможный, вероятный. Ответ, воспринимаемый обследуемым как неправильный, будет иметь малую вероятность выбора. После разработки всех заданий к ним следует вернуться через некоторое время,и попытаться еще раз оценить их формулировки, еще раз убедиться в том, что все они легко понимаются и не содержат двусмысленностей. Для этого рекомендуется привлечь хотя бы двух-трех экспертов. В личностных опросниках, как правило, используют три типа заданий: дихотомические, трихотомические и задания с рейтинговыми шкалами1. Весьма популярны заданиях альтернативным выбором (дихотомические), которые просты для понимания, легки и удобны для обработки. Эти задания требуют наименьшего времени для ответа. К их недостатком относится то, что обследуемые часто не удовлетворены предлагаемой альтернативой, хотели бы видеть больше вариантов ответа. Задания трихотомические (три варианта ответа, например ╚да╩, ╚не знаю╩, ╚нет╩) также распространены в опросниках, и их преимуществом является то, что обследуемые могут более точно выразить себя, нежели в случае альтернативы. Недостаток применения более двух вариантов ответов заключается в том, что могут актуализироваться установки на выбор крайних вариантов ответа и выбор среднего варианта, чаще всего это такие ответы, как ╚не знаю╩, ╚иногда╩ и т. п. Какие-либо правила, определяющие количество вариантов выбора ответа, отсутствуют. Обычно не рекомендуется использование более семи в опросниках, использующих рейтинговые шкалы. Важно обеспечить достаточное количество градаций ответа, с тем чтобы обследуемые были в состоянии адекватно выразить самих себя. Следует помнить и о том, что в разрабатываемом опроснике желательно использовать только один тип заданий. Основные проблемы, возникающие при разработке заданий личностных опросников, касаются актуализации факторов, имеющих установочную природу. Кратко остановимся на способах действия наиболее известных установок. Установка на согласие может быть преодолена с помощью введения так называемых обрат- ∙ ных заданий, причем их количество должно быть равно или почти равно числу ╚прямых╩ заданий. Например, утверждение ╚Я удовлетворен отношениями с моей матерью╩ может быть дополнено обратным ≈ ╚Я не удовлетворен отношениями с моей матерью╩. При введении обратных-заданий необходимо тщательно выверить их смысл и убедиться в том, что они имеют то же самое значение, что и те, из которых были образованы. Также следует избегать двойных отрицаний. Установка на социально одобряемый ответ может быть минимизирована с помощью .исключения из опросника тех заданий, ответы на которые оцениваются обследуемым с точки зрения их социальной желательности≈нежелательности. Если это по тем или иным причинам сделать невозможно, следует попробовать сформулировать косвенный вопрос, с тем чтобы побудить к ответу, не являющемуся простым отражением желания обследуемого представить себя в лучшем свете. Например, утверждение ╚Люди постоянно интригуют против меня╩ (выявление параноидных тенденций) может быть сформулировано в виде: ╚Имеются некоторые люди, которым я полностью доверяю╩. Достаточно эффективной мерой в борьбе с этой установкой будет адресованное испытуемому требование отвечать на каждый вопрос, не слишком долго задумываясь, не пытаясь анализировать каждое задание. Эдвардсом был разработан радикальный способ устранения влияния этой установки ≈ конструирование заданий, состоящих из двух утверждений, подобранных по социальной желательности, одно из которых и должен выбрать обследуемый. Однако этот прием не получил распространения по трем причинам: 1) сложность создания согласованных утверждений; 2) тенденция к увеличению любых незначительных различий в социальной желательности мезкду частями заданий, когда они предъявляются вместе; 3) используемая при разработке таких опросников экспертная оценка социальной желательности значительно упрощает это явление. Некоторые исследователи при разработке опросников используют специальную группу заданий, предназначенных для выявления лиц, склонных к социально одобряемым ответим. Эти задания состоят из вопросов, касающихся незначительных проступков, совершаемых фактически всеми людьми. Например, ╚Я никогда не лгу╩ или ╚Я всегда прихожу своевременно на встречи и свидания╩. Лица, набравшие достаточно большое количество баллов по такой шкале, рассматриваются как дающие социально одобряемые ответы, и их результаты не рассматриваются как достоверные. Несмотря на,то что Г. Айзенк доказывает, что эти так называемые ╚шкалы лжи╩ измеряют определенную личностную переменную, данный прием может быть весьма полезен для обнаружения установки на ^социально одобряемые ответы. Установка на неопределенные ответы (так называемые ответы средней категории), когда нельзя отказаться от присутствия таковых в опроснике, в известной мере преодолевается инструкцией, требующей от испытуемого как можно реже прибегать к таким ответам, а также количеством вопросов, число которых не должно приводить к рассеиванию внимания, а тем самым выбору ╚наиболее легкого ответа╩. Вполне оправданно считается, что эта категория ответов наиболее привлекательна тогда, когда оба крайних значения безразличны для испытуемых. Следовательно, задания должны быть сформулированы таким образом, чтобы выбор ответа средней категории не был притягателен. Задания, для которых необходима средняя категория ответов, не смогут пройти процедуру анализа (см. далее) и будут автоматически устранены. Если опросник предусматривает использование исключительно дихотомических заданий, то в ходе пилотажного исследования можно попросить испытуемых отмечать те из них, которые вызвали затруднение и требовали, по их мнению, неопределенного ответа; затем от них лучше отказаться. Установка на крайние ответы обычно проявляется в заданиях с рейтинговыми шкалами. По мнению П. Клайна, преимущества рейтинговых шкал, дающих испытуемому широкие возможности для выбора, сводятся на нет действием установки на крайние ответы. Поэтому лучше избегать задания типа рейтинговых. Подводя итоги достаточно краткого рассмотрения способов борьбы с установками на ответы (в соответствующей литературе нетрудно найти более детальный анализ этих проблем, возникающих при конструировании опросников), вспомним мысль Гилфорда о том, что наиболее благоприятную почву для проявления этих установок создают неконкретные, неопределенные и неоднозначные задания. В процессе работы над опросником задания будут неоднократно переформулироваться, будет изменяться порядок их предъявления, поэтому полезно иметь своего рода картотеку заданий, позволяющую работать отдельно над каждым из них. Могут быть весьма полезны компьютерные банки заданий, которые ныне доступны специалистам. 3.3. Оформление теста Разработчикам тестов хорошо известно, что от оформления, формы представления методики, что определяется как ее очевидная (лицевая) валидность, зависит, насколько серьезно воспринимается она испит1 уемыми в качестве инструмента обследования. В любом опроснике должен быть представлен блок основной информации, который включает его название, а также вопросы, касающиеся имени, пола, возраста, образования и некоторых других необходимых для исследователя данных. Обязательно указывается дата заполнения опросника. Инструкция должна быть ясной, доступной для понимания. В ней должно быть указано, как выбирать ответ и каким образом отмечать его в опроснике. Здесь же содержится дополнительная информация, которую разработчик считает необходимым сообщить обследуемому. Например, ╚отвечайте так быстро, насколько это возможно╩ или ╚отвечайте на каждый вопрос искренне, это очень важно для того, чтобы мы имели возможность оказать вам необходимую помощь╩. Следует выделить ту информацию, которая может способствовать эффективной работе испытуемого, например о соблюдении конфиденциальности. Для компоновки текста опросника следует руководствоваться такими рекомендациями. 1. Нумеруется каждое задание. 2. Каждая строка на странице должна быть короткой и содержать не более 10-12 слов. 3. Все задания располагаются по прямой вертикальной полосе сверху вниз в левом углу страницы. 3.4. Пилотажное исследование 157 4. Варианты ответов должны быть представлены так, чтобы получилась прямая вертикальная полоса сверху вниз в правом углу страницы. Необходимо обеспечить ясную визуальную связь между каждым заданием и вариантами ответа на него. Это может быть сделано с помощью введения пунктирной линии от колонки заданий к их вариантам ответов. Например, 5. Каждое задание нужно отделить друг от друга, лучше это сделать, используя свободное пространство, а не горизонтальную линию. 6. Если используется более чем один тип заданий, одинаковые задания группируются вместе. Каждый тип заданий требует разных инструкций и своих вариантов ответов. 7. Опросник печатается так, чтобы он имел эстетически привлекательный вид. Современные компьютеры позволяют сравнительно легко добиться оптимального варианта текста. Дизайн опросника может способствовать восприятию его как формального документа или приближать к игре (особенности шрифта, цвет бумаги и расположение заданий). Результаты обследования (разные формы их представления) обычно не принято включать в опросник, хотя в некоторых случаях и допускается наличие в бланке (брошюре), с которым работает испытуемый* итогового блока, заполняемого психологом. 3.4. Пилотажное исследование Проведение пилотажного исследования предполагает выполнение заданий теста лицами, которые имеют сходные особенности с теми, для обследования которых он предназначается. Анализ полученных данных поможет отобрать наилучшие задания для окончательной версии опросника. Если, например, опросник предназначен для обследования лиц, имеющих проблемы с алкоголем, пилотажно* исследование можно провести в соответствующих консультативных центрах, ВДщиках. В том случае, когда опросник будет использоваться применительно к любым, скажем, взрослым и психически нормальным представителям популяции, необходимо сформировать репрезентативную группу испытуемых. Сделать это намного труднее, чем подобрать какую-либо специфическую группу. Обычно составление выборки отнимает много времени, поэтому не стоит этим заниматься при проведении пилотажного исследования. Если невозможно создать репрезентативную выборку, обычно достаточно составить выборку приблизительно похожую на репрезентативную. Лица, которые принимают участие в пилотажном исследовании, должны различаться по демографическим показателям, таким как возраст, пол, социальный статус. Пилотажную версию опросника следует предъявить как можно большему количеству испытуемых. Минимальное количество респондентов, которое требуется для пилотажного 158 Глава 3. Психометрические основы психодиагностики: основные этапы,., исследования, должно быть в два раза больше, чем количество заданий. Если невозможно получить такое количество испытуемых, лучше все-таки привлечь к исследованию меньшее количество людей, чем вообще отказаться от проведения пилотажной стадии исследования. 3.5 Анализ заданий Анализ заданий по результатам, полученным в пилотажном исследовании, имеет своей целью отбор наилучших заданий для окончательной версии опросника и включает в себя определение доли ответивших правильно (в соответствии с ключом) и дискриминантности каждого задания. Первый шаг состоит в том, чтобы составить таблицу анализа заданий (табл. 3.3), в которой каждая колонка (а, Ь, с, d и т. д.) представляет задание, а каждая строка (1,2,3,4,5 и т. д.) ≈ обследуемо^ го. Когда речь идет о разработке личностных опросников, в таблицу вписывается соответствующий балл по каждому заданию, а при этом имеется в виду, что обратные задания (с противоположным содержанием) оцениваются также, как и прямые задания, но в противоположном направлении континуума оценок. Затем суммируются баллы по каждой клетке для получения общего балла по каждому ряду (испытуемые) и общего балла по каждой колонке (задания). Следующим шагом будет вычисление показателя, определяющего долю испытуемых, ответивших в соответствии с ╚ключом╩ опросника или индекса эффективности задания1. Этот показатель подсчитывается делением количества обследуемых, давших правильный (так называемый ╚ключевой╩) ответ, на их общее количество. В идеале этот индекс для каждого задания должен располагаться в интервале от 0,25 до 0,75, приближаясь в среднем к 0,5 для всего опросника. Индекс, меньший чем 0,25, показывает, что задание неэффективно потому, что очень 1 В ряде случаев определяется как индекс сложности задания; например, во многих шкалах интеллекта присутствуют субтееш, предназначенные для определения общей осведомленности и состоящие из вопросов типа: ╚Назовите столицу Уругвая╩ или ╚Кто'автор "Критики чистого разума"?╩. В таких тестах с помощью индекса сложности устраняются те задания, на которые отвечают почти все испытуемые (легкие) и те, на которые отвечают правильно очень немногие (сложные). 3.5 Анализ заданий 159 немногие обследуемые отвечают на него правильно, а выше 0,75 указывает на то, что на данное задание получено слишком много правильных ответов. В табл. 3.3 анализа заданий индекс эффективности для каждого задания получается следующим.образом: (а) 3/5 - 0,6; (B) 2/5 - 0,4; (с) 0/5 = 0; (d) 3/5 - 0,6 и (е) 5/5 - 1. Из этого следует, что нужно устранить задания (с) и (е) из окончательной версии опросника. Также нужно удостовериться, просмотрев результаты в таблице анализа заданий, в том что хороший индекс эффективности, т. е. лежащий где-то посередине между крайними оценками, не просто означает выбор средних оценок в оценочном континууме каждым испытуемым, а представляет собой вариацию различных оценок. Задания (вопросы, утверждения) только тогда следует включать в окончательг ную версию опросника, когда они измеряют те же самые личностные особенности, что и другие, предназначенные для этого задания. Для определения дискри-минативности заданий используется коэффициент корреляции каждого задания с общим баллом всего теста. Чем выше коэффициент корреляции, тем выше дис-криминантность задания, тем лучше задание. Это основной критерий. Как правило, требуется минимальная корреляция в 0,2. Задания с отрицательной или нулевой корреляцией почти всегда исключаются. Для расчета этого показателя чаще всего применяется коэффициент произведения моментов Пирсона (заметим, что он наиболее приемлем для оценивания заданий, имеющих пять и более вариантов ответа, а в случае дихотомических заданий используется точечно-бисериальная корреляция). Вычисления обычно производятся с помощью специальных компьютерных программ, однако каждый разработчик тестов должен хотя бы один раз провести расчеты вручную. Это дает возможность проникновения в смысл того, что происходит с заданиями теста. Тем читателям, которые попытаются осуществить эту процедуру, напоминаем, что коэффициенты корреляции всегда меньше +1 и больше -1. Если получено значение коэффициента, выходящее за границы этого интервала, значит, допущена ошибка в расчетах. Формула коэффициента произведения моментов Пирсона имеет вид: При решении вопроса о включении задания в окончательную версию теста нужно принимать во внимание многие факторы. В дополнение к изучению эффективности и дискриминантности нужно определить то количество заданий, которое потребуется для окончательной версии (не менее 20-30 заданий!) и насколько хорошо они ■╚вписываются╩ в ранее созданную для теста решетку. Например, можно включить задания с низкой дискриминативностью, если имеется немного заданий по некоторой области измерения. Также иногда имеет смысл включение в окончательный вариант опросника задания с недостаточно высоким показателем эффективности при условии, что оно обладает достаточной дискриминантно-стью. Также важно обеспечить приблизительно равное количество прямых и обратных заданий. Для испытуемых разных полов необходимо выполнить отдельные процедуры анализа заданий. Способы улучшения заданий выясняются как раз на этой стадии конструирования теста. Например, изменение формулировки ответа в задании с ╚иногда╩ ha ╚всегда╩ может повысить показатель эффективности. Однако эти изменения во всех вопросах (утверждениях) могут повлиять на надежность и валидность теста. Процедура анализа заданий дает необходимую информацию относительно параметров каждого задания. Тем не менее только исследователь может вынести решение о том, какой из критериев наиболее важен для реализации цели создаваемого теста. В начале 1980-х гг., помимо традиционных процедур анализа заданий, появляются более сложные, использование которых невозможно без достаточно мощного компьютерного обеспечения. К таковым прежде всего относится теория ╚задание≈ответ* (item response theory, IRT). Технические приемы этой теории, несмотря на продолжающиеся дискуссии, сегодня включаются во вновь создаваемые тесты. Однако речь идет прежде всего о тестировании способностей. Наиболее сложные проблемы возникают в связи с попытками приложения ITR к тестам личности. Безусловно, нельзя утверждать, что процедуры из Ш? неприменимы в оценке личности, однако требуется решение многих задач, прежде чем эта теория заменит традиционные процедуры анализа заданий^подробнее об этой теории см. в работах П. Клайна, 1994; А. Анастази и С. Урбина, 2001; и др.). 3.6. Определение надежности теста Тест обычно считается надежным, если с его помощью получаются одни и те же показатели для каждого обследуемого при повторном тестировании. В псйхометрике термин надежность имеет два значения. На одном из них ≈ надежности по внутренней согласованности ≈ мы не будем останавливаться подробно, отсылая читателя к соответствующим справочникам и руководствам1, отметив только, что требование к внутренней согласованности теста не случайно. Вполне естественно считать, что если некоторая, переменная измеряется частью теста, то другие его части, не будучи согласованными с первой, измеряют нечто другое. Для того чтобы быть валидным, тест должен быть согласованным. Существует несколько способов определения надежности. Надежность ретестовая ≈ предполагает повторное предъявление того же самого теста тем же испытуемым и примерно в тех же условиях, что первоначальное, а затем установление корреляции между двумя рядами данных. При использовании этого способа определения надежности нужно отдавать себе отчет в том, что испытуемые могут запомнить свои ответы и воспроизвести их во второй раз, поэтому повторное тестирование дрлжно быть отделено от первого более-менее значительным временным интервалом, обычно не менее месяца. Некоторые психологи настаивают на интервале между тестированиями не менее 6 месяцев (Клайн, 1994). Мы не считаем требование П. Клайна об обязательном 6 месячном интервале между тестированиями безусловным. В подтверждение сошлемся на результаты исследования канадских психологов. С помощью личностного опросника были обследованы 302 студента с интервалом в 3 недели. Условия повторною тестирования варьировались. Стандартный коэффициент ретестовой надежности, равный 0,872, не отличался от коэффициентов надежности, полученных в трех группах испытуемых, получавших одну из трех специфических инструкций: 1) продумывать ответы; 2) использовать воспоминания о прошлых ответах; 3) выполнять параллельную форму теста. Было обнаружено, что стандартный коэффициент надежности выше коэффициента, полученного при инструкции воспроизводить прошлые ответы. Наименьшим удовлетворительным значением для ретестовой надежности является коэффициент корреляции, равный 0,7. Правда, для некоторых тестов этот показатель может быть несколько ниже. 1 Изданный под нашей редакцией перевод с английского книги П. Клайна ╚Справочное руководство по конструированию тестов╩ (Киев, 1994), пока, к сожалению, единственная на русском языке достаточно подробная работа по конструированию тестов, может удовлетворить интерес читателя к этой проблеме. Надежность параллельных форм, предусматривает создание эквивалентных форм опросника и предъявление их одним и тем же испытуемым для того, чтобы затем оценить корреляцию между полученными результатами. Основная проблем ма, препятствующая широкому распространению этого способа определения надежности, ≈ ╚еобходимость подготовки двух наборов заданий, что чрезвычайно сложно, поскольку требуются убедительные доказательства их эквивалентности. Надежность частей теста определяется путем деления опросника на две части (обычно на четные и нечетные задания), после/чего и рассчитывается корреляция между этими частями. Обычно к этому способу определения надежности рекомендуется прибегать только в тех случаях, когда необходимо быстро получить результаты. Для определения ретестовой надежности и надежности параллельных форм корреляции подсчитывается на основе коэффициента произведения моментов Пирсона. Эта процедура подсчета рассматривалась нами ранее, в разделе, посвященном анализу заданий. Для определения надежности частей теста ранее рассчитанный коэффициент произведения моментов Пирсона (между двумя половинами теста) используется в формуле Спирмена≈Брауна. Формула Спирмена≈ Брауна имеет вид: Подчеркнем, что наилучшей процедурой определения надежности является проведение повторных исследований через более или менее значительные временные интервалы. Все исследования надежности должны выполняться на достаточно больших (рекомендуется 200 и более испытуемых) и репрезентативных выборках. Надежность ≈ важная характеристика теста, но сама по себе ценности не представляет. Она необходима для достижения валидности. 3.7. Факторный анализ Во многих случаях перед разработчиком теста встает задача ╚сжатия╩ информации или, иначе говоря, компактного описания изучаемых явлений при наличии множества наблюдений или переменных. Факторный анализ как раз и является методом снижения размерности изучаемого многомерного явления. Напомним читателю, что факторный анализ зародился в психологической на-* уке и связан в первую очередь с исследованиями Ч. Спирмена (Spearman, 1904)╩ Последующими работами таких выдающхся психологов, как Т. Келли, Л. Тер* стоуна, Дж. Гилфорда и Р. Кэттелла, а также математиков К. Пирсона, К. Холзин-гера, Г. Хармана и др., был достигнут значительный успех в математическом обосновании факторного анализа, и этот метод начинает активно применяться в различных науках. Как хорошо известно, одной из типичных форм представления экспериментальных данных является матрица, столбцы которой соответствуют, например, различным тестам (заданиям тестов), а строки ≈ отдельным результатам (значениям), полученным в результате их применения. Визуальный анализ сколь-ни-будь значительной по величине матрицы невозможен, а поэтому требуется исходную информацию сжать, извлечь из нее наиболее важное, существенное. Прежде всего исследователю необходимо получить корреляционную матрицу (подсчет коэффициентов корреляции). Воспользуемся в качестве примера исследованием Л. Айкена (Aiken, 1996). В этом исследовании 90 студентов колледжа просили оценить преподавателя с помощью пятибалльной шкалы (1 ≈ низший балл, 5 ≈ высший) по 11 параметрам: тактичность, вежливость, креативность, доброжелательность, увлеченность своим предметом, знание предмета, способность мотивировать студентов, организованность, терпеливость, подготовленность и пунктуальность. Если поделить матрицу корреляций рейтинговых оценок, данных студентами по списку качеств личности преподавателя (табл. 3.4) на два равных треугольника, проведя диагональ из левого верхнего угла в правый нижний угол, то можно увидеть, что это ≈ симметричная матрица, в которой первая верхняя строка состоит из тех же оценок, что и первая колонка. Аналогично вторая строка включает те же самые элементы, что и вторая колонка, и т. д. Также нужно обратить внимание на то, что все числа на основной диагонали (начиная сверху слева вплоть до чисел внизу справа) равны +1,00 ≈ это предполагаемая корреляция каждого задания шкалы с самим собой. В психологическом тестировании цель факторного анализа заключается в том, чтобы найти несколько фундаментальных факторов, которые объяснял и бы большую часть дисперсии в группе оценок по различным тестам или другим психометрическим измерениям. В вышерассмотренном примере ≈ И переменных, поэтому для него задача факторного анализа заключается в том; чтобы найти матрицу факторных нагрузок или корреляции между факторами и заданиями шкалы. Существует несколько процедур факторного анализа, но все они предполагают две стадии: 1) факторизацию матрицы корреляций, с тем чтобы получилась первоначальная факторная матрица; 2) вращение факторной матрицы, с тем чтобы обнаружить наиболее простую конфигурацию факторных нагрузок (см. табл. 3.4). Стадия факторизации в этом процессе призвана определить количество факторов, необходимых для объяснения связей между различными тестами, и обеспечивает получение первичных оценок нагрузки (веса) каждого теста по каждому фактору. Вращение факторов необходимо для того, чтобы сделать их более понятными (интерпретируемыми) с помощью создания конфигурации факторов, в которой совсем немного тестов имеют высокие нагрузки, тогда как большая часть тестов имеют низкие нагрузки по любому фактору. 164 Глава 3. Психометрические основы психодиагностики: основные этапы... Одна из наиболее известных процедур факторизации ≈ метод главных осей (principal axis), а самая популярная процедура вращения ≈ варимакс вращение1. Из табл. 3.5 видно, что выделяются три фактора, они представлены в колонках, обозначенных А, В, С. Величины, записанные под колонкой каждого фактора, ≈ корреляции или нагрузки каждого из 11 заданий по этому фактору. Например, падание 1 имеет нагрузку по фактору А равную 0,754; - 0,271 по фактору В; и 0,250 по фактору С. Сумма квадратов нагрузок по каждому из факторов позволяет определить долю дисперсии этого задания. Таким образом, доля дисперсии задания 1 равна: Это означает, что 70,4 % вариаций показателей по заданию 1 объясняется действием этих трех факторов. Факторно-аналитический подход позволяет также оценить надежность теста. Как известно, полная дисперсия теста равна сумме дисперсий для общих факторов, плюс дисперсии специфических факторов, плюс дисперсия погрешности. Следовательно, если мы осуществим факторный анализ теста, возведем в квадрат и суммируем нагрузки его факторов, то мы получим его надежность, поскольку нагрузки факторов представляют корреляцию теста с общими или специфическими факторами. Однако следует помнить, что такой способ установления надежности более всего подходит для уже факторизованного теста, нежели для тестов, которые могут измерять широкий набор разных факторов, часть которых могут и не входить в батарею изучаемых исследователем. 1 По вполне понятным причинам здесь опущены этапы ручной факторизации матрицы, поскольку в настоящее время для этой цели используются различные компьютерные программы. Для читателя, ■■ желающего ознакомиться подробно с процедурой факторизации матрицы и ее вращением, рекомендуем обратиться к книге: Окунь Я. Факторный анализ / Пер. с польск.; Под ред. Г. 3. Давидовича. ≈ М: Статистика, 1974. Факторная матрица после вращения представлена в колонках А', В' и С 'таблицы. Доля дисперсии каждого задания та же самая, что и в факторной матрице до вращения факторов, но факторы, полученные после вращения, легче интерпретировать, чем в матрице до вращения. Вращение варимакс является процедурой ортогонального вращения, в котЪрой факторные оси остаются перпендикулярными друг к другу. В противоположность этой процедуре факторные оси при обличе-ском (косоугольном) вращении формируют острые или тупые углы по отношению друг к другу. Ортогональные факторы обычно легче интерпретировать, чем косоугольные, поскольку эти факторы не коррелируют друг с другом (независимы). При интерпретации факторной матрицы после вращения следует обратить особое внимание на задания, которые имеют вес 0,50 и выше по данному фактору. Четыре задания ≈ 1 (тактичный), 2 (вежливый), 4 (доброжелательный) и 9 (терпеливый) ≈имеют высокие нагрузки по фактору А'. Соответственно подходящим названием для этого фактора могло бы быть такое обозначение, как ∙╚деликатность╩ или ╚вежливость╩. Еще четыре задания имеют высокие нагрузки, но уже по фактору В': 6 (осведомленный), 8 (организованный), 10 (подготовленный) и 11 (пунктуальный), значит, соответствующим наименованием фактора В' могло бы быть ╚готовность╩. Наконец, три задания имеют высокие нагрузки по фактору С: 3 (креативный), 5 (увлеченный) и 7 (способный мотивировать); подходящим обозначением этого фактора могло бы быть ≈ ╚стимулирующий╩ или ╚мотивирующий╩. Эти три фактора приобретают психологический смысл при определении типа личности преподавателя, который предпочитают студенты. 1 SPSS ≈ Статистический пасет для социальных наук (Statistical Package for the Social Sciences). Безусловно, имеется гораздо больше приложений для факторного анализа, чем те,иа которых мы остановились. Сегодня факторному анализу посвящено множество книг и статей. Biro же время Существуют значительные разногласия не только относительно наилучших процедур факторизации и вращения факторов, но и в отношении их интерпретации. Тем не менее факторный анализ был и остается одним из наиболее мощных инструментов психолога, разрабатывающего тесты. 3.8. Валидность теста Существует достаточно много разных способов доказательства валидности теста. О них и пойдет речь далее. Тест называется валидным, если он измеряет то, для измерения чего предназначен. Очевидная валидность ≈ описывает представление о тесте, сложившееся у испытуемого. Тест должен восприниматься обследуемым как серьезный инструмент познания его личности, чем-то схожий с вызывающим уважение и в какой-то мере трепет медицинским диагностическим инструментарием. Очевидная валидность приобретает особое значение в современных условиях, когда представление о тестах в общественном сознании формируется многочисленными публикациями в популярных газетах и журналах того, что можно назвать квазитестами, с помощью которых читателю предлагается определить все, что угодно: от интеллекта до совместимости с будущим супругом. Конкурентная валидность оценивается по корреляции разработанного теста с другими, валидность которых относительно измеряемого параметра установлена. П. Клайн отмечает, что данные о конкурентной валидности полезны тогда, когда есть неудовлетворительно работающие тесты для измерения некоторых переменных, а новые создаются для того, чтобы улучшить качество измерения. В самом деле, если уже существует эффективный тест, то для чего нужен такой же новый? Прогностическая валидность устанавливается с помощью корреляции между показателями теста и некоторым критерием, характеризующим измеряемое свойство, но в более позднее время. Например, прогностическая валидность какого-либо теста интеллекта может быть показана корреляцией его показателей, полученных у испытуемого в возрасте 10 лет, с академической успеваемостью в период окончания средней школы. Л. Кронбах считает прогностическую валидность наиболее убедительным доказательством того, что тест измеряет именно то, для чего он был предназначен. Основная проблема, с которой сталкивается исследователь, пытающийся установить прогностическую валидность своего теста, состоит в выборе внешнего критерия. В особенной степени чаще всего это касается измерения личностных переменных, где подбор внешнего критерия ≈ чрезвычайно сложная задача, решение которой требует немалой изобретательности. Несколько проще обстоит дело при определении внешнего критерия для когнитивных тестов, однако и в этом случае исследователю приходится ╚закрывать глаза╩ "на многие проблемы. Так, академическая успеваемость традиционно используется в качестве внешнего критерия при валидизации тестов интеллекта, но в то же Bpej мя хорошо известно, что успехи в обучении далеко не единственное свидетельство высокого интеллекта. . ' Инкрементная валидность имеет ограниченное значение и относится к случаю, когда один тест из батарей тестов может иметь низкую корреляцию с критерием, но не перекрываться другими тестами из этой батарей. В этом случае данный тест обладает инкрементной валидностью. Это может быть полезно при проведении профотбора с помощью психологических тестов. Дифференциальная валидность может быть проиллюстрирована на примере тестов интересов. Тесты интересов обычно коррелируют с академической успеваемостью, но по-разному для разных дисциплин. Значение дифференциальной валидности, так же как и инкрементной, ограничено. Содержательная валидность определяется через подтверждение того, что задания теста отражают все аспекты изучаемой области поведения. Обычно она определяется у тестов достижений (смысл измеряемого Параметра полностью ясен!), которые, как уже указывалось, тестами собственно психологическими не являются. На практике для определения содержательной валидности подбираются эксперты, которые указывают, какая область (области) поведения наиболее важна, например, для музыкальных способностей, а затем, исходя из этого, генерируются задания теста, которые вновь оценивают эксперты. Конструктная валидность теста демонстрируется полным, насколько это возможно, описанием переменной, для измерения которой предназначается тест. По сути дела, конструктная валидность включает в себя все подходы к определению валидности, которые были перечислены выше. Кронбах и Мил (Cronbach & Meehl, 1955), которые ввели в психодиагностику понятие конструктной валидности, пытались решить проблему отбора критериев при валидизации теста. Они подчеркивали, что во многих случаях ни один отдельно взятый критерий не может служить для валидизации отдельного теста. Можно считать, что решение вопроса о конструктной валидности теста представляет собой поиск ответа на два вопроса: 1) существует ли реально некоторое свойство; 2) надежно ли измеряет данный тест индивидуальные различия по этому свойству. Вполне понятно, что с конструктной валидностью связана проблема объективности в интерпретации результатов по изучению конструктной валидности, однако эта проблема общепсихологическая и выходит за рамки валидности (подробнее см. гл. 2). Из вышесказанного следует* что не существует какого-либо единичного показателя, с помощью которого устанавливается валидность психологического теста. В отличие от показателей надежности и дйскриминативности, нельзя осуществить точные статистические расчеты, подтверждающие валидность методики. Тем не менее разработчик должен представить весомые доказательства в пользу валидности теста, что потребует от него психологических знаний и интуиции, 3.9, Стандартизация теста Одним из важных отличий психометрических тестов является то, что они стандартизированы, а это позволяет сравнить показатели, полученные одним испытуемым, с таковыми в генеральной совокупности или соответствующих группах. Тем самым достигается адекватная интерпретация показателя отдельного испытуемого. Таким образом, стандартизация теста наиболее важна в тех случаях, когда осуществляется сравнение показателей обследуемых. При этом вводится понятие нормы, или нормативных показателей. Для получения стандартных норм нужно тщательно отобрать большее количество испытуемых в соответствии с ясно обозначенным критерием. При формировании выборки стандартизации следует учитывать ее объем и репрезентативность. В руководствах по тестам чаще всего указывается на то, что для простого уменьшения стандартной погрешности достаточной будет выборка из 500 испытуемых. Однако репрезентативность выборки не зависит от ее объема. Например, для того чтобы получить нормативные показатели для всей популяции детей, обучающихся в начальной школе, потребуется выборка объемом более 10 тысяч, тогда как выборка из такой ограниченной популяции, как шеф-пилоты авиакомпаний, не может быть столь значительной. Репрезентативность выборки, таким образом, параметр более важный, нежели ее объем. В некоторых случаях приходится формировать несколько групп стандартизации или стратифицировать группу стандартизации относительно таких параметров, как возраст, пол, социальный статус. Устанавливать нормы не всегда обязательно. При использовании психологических тестов в научном исследовании нормы не столь важны и достаточно ╚сырых╩ показателей теста. Нормы для каждой группы должны быть представлены в средних величинах и показателе стандартного отклонения. Расчет средней величины элементарен и хорошо известен, а стандартное отклонение определяется с помощью формулы, имеющей вид: " Сегодня на практике все оолыпе используется такой тип производной оценки, как стандартные показатели, удовлетворяющий большинству требований, предъявляемых к психологическому измерению. Такие показатели выражают отличие индивидуального результата испытуемого от среднего в единицах стандартного отклонения соответствующего распределения. Стандартные показатели получают двумя путями: линейным и нелинейным преобразованием первичных (╚сырых╩) оценок. В случае линейного преобразования сохраняются все свойства исходного распределения ╚сырых╩ оценок, и такие показатели называются стандартными или 2-показателями. Для вычисления z-показателя находят разность между первичной оценкой и средним для нормативной группы и делят ее на стандартное отклонение нормативной группы. Формула имеет вид; Здесь необходимо сказать о том, что основной причиной преобразования первичных оценок в некоторую производную шкалу является желание получить показатели, которые сопоставимы между собой ве зависимости от того, по какому тесту они получены. Линейное преобразование позволяет получить показатели сопоставимые лишь в том случае, когда распределения ╚сырых╩ оценок, по которым они рассчитываются, имеют примерно одинаковую форму. Для того чтобы сопоставлять показатели, полученные на основе распределений разной формы, прибегают к нелинейному преобразованию, или к нормализованным стандартным показателям. Процедура нелинейного преобразования достаточно проста и описана в многочисленных руководствах по математической статистике. Такие показатели обычно рассчитывают с помощью таблиц. В этих таблицах приводится процент случаев, приходящихся на участки, которые отстоят от среднего нормальной кривой на некоторое число единиц стандартного отклонения. Сначала определяют процент лиц, чьи показатели превышают каждую ╚сырую╩ оценку, а затем по этому проценту в таблице отыскивают соответствующее значение нормализованного стандартного показателя. Эти показатели, как и линейно преобразованные, будут иметь среднее равное 0, и стандартное отклонение (SD), равное 1. Нулевое значение показывает, что испытуемый попадает в точку, соответствующую среднему нормальной кривой, превосходя 50 % группы. В случае, если показатель равен ≈1, испытуемый превосходит примерно 16 % группы, а если +1 ≈ превосходит 84 % группы. Нормализованным стандартным показателям можно придать любую удобную форму, например, умножив его на 10 и прибавив произведение к 50, получаем так называемый ╚Т-показатель╩ и в этом случае Т, равное 50, соответствует среднему, равному 60 ≈ превышает среднее на одно стандартное отклонение и т. д. С другими, не менее популярными нелинейными преобразованиями ╚сырых╩ показателей теста, можно ознакомиться в соответствующей литературе1. Созданием стандартизованного теста и его публикацией обычно завершается работа психолога, однако следует помнить и о том, что с течением времени необходим пересмотр (ревизия) теста. Достаточно вспомнить о тестах интеллекта (см. гл. 4), нормы по которым устаревают через каждые 5 лет, и можно предположить, что процесс их старения будет ускоряться. Для наглядности этапы конструирования теста представлены на рис. 3.1. Пример из практики: определение надежности опросника 16 PF Кеттелла. Личностный опросник Раймонда Кеттелла 16 PF (16 личностных факторов) относится к наиболее распространенным психодиагностическим инструментам Я не нуждается в специальном представлении. Уже без малого 50 лет психологи всего мира используют его для решения разнообразных прикладных и научных задач. Однако как в бывшем СССР, так и ныне во вновь образованных странах этот опросник, несмотря на достаточно большую популярность, используется непрофессионально, с нарушением всех норм и правил, предъявляемых к психологическим тестам. Кроме различных переводов опросника, которые существенно отличаются один от другого, в русскоязычной литературе часто встречаются и различные ' См., напр., БурлачукЛ. Ф., Морозов С. М. Словарь-справочник по психодиагностике. ≈ СПб.: Питер, 1999, а также Гласе Дж., Стэнли Дж. Статистические методы в педагогике и психологии / Пер. с англ. ≈ М.: Прогресс, 1976. ╚ключи╩ к его факторам. Опубликованные в многочисленных сборниках и брошюрах варианты опросника не защищены (!) от ошибок и произвольного вмешательства в его текст. Если добавить к этому отсутствие нормативных данных, а также то, что не проводилась проверка гомогенности шкал опросника на отечественных зыборках, то непонятно, какого рода результаты получали его многочисленные пользователи, какими диагностическими заключениями они оперировали. За последние пятнадцать лет у нас появились только три (!) работы, в которых ставилась задача проверки факторной структуры 16 RF'Ha национальных выборках: это статьи В. М. РусаловаиО. В. Гусевой (1990), Ю. М. Забродина, В. }Л. Похиль-ко и А. Г. Шмелева (1987)^ наконец, украинского психолога А. Г. Виноградова (1997). Читателю нетрудно сравнить это количество публикаций с тем множеством работ, в которых опросник использовался для получения ╚диагностически значимых результатов╩. Сказанное позволяет сделать'вывод о том, что с помощью опросника 16PF измеряется нечто, имеющее неясное отношение к факторам личности, выделенным и описанным Кеттеллом. Занимаясь работой по психометрической адаптации личностных опросников1, мы не могли обойти вниманием и столь широко распространенный, как 16PF. За основу была взята форма ╚А╩ опросника 16PF. Были обследованы 227 человек (135 женщин и 92 мужчины) в возрасте от 16 до 51 года. Средний возраст исследуемых составлял 28 лет. Это были люди, которые проходили отбор на различные должности в коммерческие организации Киева, все они имели высшее или среднее специальное образование (бухгалтеры, коммерческие директоры, менеджеры разного уровня). Как известно, точность измерения с помощью психодиагностического инструмента определяется его надежностью. С целью выяснить, насколько точен прогноз, даваемый психологом на основании результатов 16PF, данные, первоначально полученные нами, были оценены по авторским ключам на внутреннюю согласованность с помощью коэффициента Кронбаха, вычисляемого по следующей формуле: В табл. 3.6 содержатся данные о внутренней согласованности факторов личности, полученные по авторским ╚ключам╩ (приведено буквенное обозначение фактора). Как видно из таблицы, значение коэффициента Кронбаха неудовлетворительно для большинства факторов. А фактор N вообще измеряет нечто, не имеющее никакого отношения к проницательности, расчетливости и наивности (если употреблять обыденное название этого фзщора). Лишь некоторые из факторов, например фактор F(сургенция≈десургенция) и фактор N пармия≈тректия (смелость≈робость), надежно измеряют то, что должны измерять, Таким образом, в результате проверки надежности≈согласованности оригинальных ключей было показано, что ряд шкал опросника негомогенны. Можно предположить, что это следствия искажения смысла заданий при переводе на русский язык и/или существования известных культурных различий. Для того чтобы выявить, что же именно стоит за данными, получаемыми с помощью 16PF, мы использовали факторный анализ. Факторы извлекались методом 1 Автор выражает свою признательность за участие в этой работе своему бывшему аспиранту Виталию Дузшевичу. главных компонент, оценка общностей производилась после выделения факторов. Решение о количестве факторов принималось на основании анализа диаграммы собственных значений ≈ scree-plot (рис. 3.2). На так называемом ╚графике осыпи╩ (автором которого является Кеттелл) находилась точка перегиба, правее которой, как показали модельные эксперименты автора опросника, обычно расположены так называемые ╚шумящие╩ факторы. Этот критерий позволяет выде- лить гораздо меньшее число факторов, чем применяемый большинством пользователей статистических пакетов метод Кайзера, базирующийся на величине собственного значения фактора. Вращение факторов производилось методом VARIMAXc нормализацией по Кайзеру. Коэффициенты факторных баллов были вычислены методом регрессии. Статистическая обработка производилась с помощью программы SPSS для Windows (версия 5.0). В качестве значимых рассматривались нагрузки заданий, которые по абсолютной величине превосходили 0,3. Данная граница была принята по следующим соображениям: поскольку нагрузка представляет собой коэффициент корреляции задания и фактора, при данном его объеме эта величина является значимой и позволяет объяснить до 10 % вариации задания. Как показывает опыт, установление более высокой границы приводит к резкому падению согласованности шкалы, особенно при кросс-валидизации. При этом заметим, что небольшое количество наших испытуемых, конечно, не репрезентирует генеральную совокупность. Кроме того, нами не проводилось исследование стойкости факторного решения, полученного в исследовании (кросс-вали-дизация). Наконец, задания по фактору В, а также задания 1,2 и 187 были исключены из анализа. Обычно на таком графике кривая имеет две точки изгиба. Для интерпретации оставляют те факторы, которые размещены перед вторым изгибом кривой. Полу* чается, что в нашем случае следует оставить 7 факторов. Интересно, что приблизительно такое же количество факторов обнаруживается в большинстве исследований структуры личностной лексики в разных языках и совокупностей заданий личностных опросников. Выделенные факторы были интерпретированы следующим образом. 1. Тревожность ≈ эмоциональная стабильность. 2. Энергичность, активность ≈ пассивность. 3. Настойчивость, уверенность в себе ≈ покорность, подверженность влиянию. 4. Сила Сверх-Я ≈ слабость Сверх-Я (данный фактор соответствует фактору G Кеттелла). 5. Обособленность ≈ зависимость от группы (этот фактор соответствует фактору Кеттелла). 6. Рациональность, практичность ≈ мечтательность 7. Импульсивность ≈ сдержанность, самоконтроль. Интересным представляется тот факт, что лишь три отмеченных фактора соответствуют тем, которые выделены Кеттелом. Это, на наш взгляд, свидетельству- -ет о том, что данные факторы настолько устойчивые характерологиче- ские конструкты, что имеет сходство в англоязычной и русскоязычной культурах. Также заслуживает внимание тот факт, что большинство факторов соответствуют факторам, полученным в других работах (Виноградов, 1997). Это еще раз подтверждает надежность полученных результатов. Нагрузки заданий опросника по семи факторам приведены в табл. 3.7 (включены нагрузки, абсолютное значение которых не менее 0,3). Вопросы, ╚работающие╩ на выделенные факторы, были подвергнуты статистической обработке с последующим анализом полученных показателей внутренней согласованности. Результаты представлены в табл. 3.8. Нетрудно убедиться, что значения коэффициента надежности≈согласованности Кронбаха достаточно велики для выделенных факторов, а это свидетельствует об однородности построенных шкал. Поскольку не существует формальных способов проверки гипотезы о равенстве нулю коэффициента Кронбаха, в своей работе мы использовали его лишь в качестве дескриптивной меры согласованности заданий исходных и полученных с помощью факторного анализа шкал. Напомним, что для шкал опросников наиболее характерны значения коэффициента Кронбаха в диапазоне 0,6-0,8. На завершающем этапе исследования нами были рассчитаны среднее и стандартное отклонения для новых и оригинальных ключей1 (табл. 3.9,3.10). верительные нормативные данные могут служить ориентиром для заключений об относительной степени выраженности у испытуемого некоторых личностных черт. Памятуя об ограниченности выборки, отметим, что новые ╚ключи╩ и нормы следует использовать с известной осторожностью. t Заключение Подводя итоги вышеприведенного, достаточно краткого рассмотрения психометрических основ психодиагностики, хотелось бы подчеркнуть, что измерение человеческого поведения ≈ необычайно сложная задача. Основная проблема заключается в том, что речь идет об измерениях во внефизической сфере, сфере гуманитарной науки, а используемый математико-статистический аппарат призван обслуживать (и успешно обслуживает) прежде всего измерение физических явлений. Вполне понятно желание многих исследователей предельно объективировать психологическое измерение, задавая такие требования к тестам, как надежность, дискриминативность, валидность. Соответствие этим требованиям зачастую представляется как условие точности и объективности наших измерений. В то же время зачастую не учитывается, что гуманитарные науки накладывают на процесс измерения множество ограничений. Формализация и количественные методики, математические модели в психодиагностике никогда не смогут заменить разработку теоретических конструктов, фундаментальных принципов исследования. Достаточно четко это прослеживается в развитии понятия валидности теста ≈ его важнейшей характеристике как исследовательского инструмента. Понятие конструктной валидности, вобравшее в себя все подходы к определению валидности, ≈ яркий пример того, что в конструировании тестов нельзя ограничиться математическими расчетами, как бы достоверны и убедительны они ни были. Без полного, насколько это возможно, психологического описания переменной (конструкта), для измерения которой предназначается тест, без формулирования гипотез о его результатах в свете того, что нам известно/об этойдаременной, процесс создания теста становится упражнением из математической статистики. Разработка тестов ≈ творческий акт исследователя, и именно поэтому известных и завоевавших популярность методик, несмо"тря на множество изобилующих рецептами ╚кулинарных╩ книг по их изготовлению, не так уж и много, что хорошо известно любому психологу-практику.

Информация о работе Психометрические основы психодиагностики: основные этапы конструирования теста