Что такое достоверность теста
Достоверность теста
Особой разновидностью валидности является ДОСТОВЕРНОСТЬ, которая не всегда выделяется в учебниках по психодиагностике, хотя требует специальных усилий и процедур по обеспечению. Речь идет о сознательных или бессознательных искажениях, которые вносит в тестовые результаты сам испытуемый, руководствуясь в ходе теста особой мотивацией, отличающейся от той, которая присуща ему в реальном поведении. Способность теста защищать информацию от МОТИВАЦИОННЫХ ИСКАЖЕНИЙ и есть достоверность теста. Особенно. остро проблема достоверности стоит в случае тест-опросников, которые допускают больше свободы в выборе испытуемым любого варианта ответа.
Типичный прием обеспечения достоверности — наличие в тест-опросниках ШКАЛ ЛЖИ. Эти шкалы основываются главным образом на феномене СОЦИАЛЬНОЙ ЖЕЛАТЕЛЬНОСТИ — стремлении испытуемых давать в ходе тестирования социально одобряемую информацию. Если испытуемый набрал по шкале лжи балл выше критического, то его протокол объявляется недостоверным и ему предлагается либо выполнить данный тест еще раз более откровенно, либо выполнить другой тест. Многие более специфичные «ловушки», направленные на измерение достоверности, часто входят как компонент в структуру конкретного теста, а иногда даже не подлежат разглашению как элемент «ноу-хау» (инфор-
Психодиагностика как научная технология
мационного изобретения) и профессиональной тайны, разделяемой разработчиками только с лицензированными пользователями методики, подписавшими особое лицензионное соглашение при приобретении теста.
Достоверность тестирования тесно связана со степенью доверительности общения, которую смог психолог установить с данным испытуемым. Здесь полезно различать две диагностические ситуации: консультативную (СИТУАЦИЯ КЛИЕНТА) и аттестационную (СИТУАЦИЯ ЭКСПЕРТИЗЫ). В первом случае испытуемый участвует в тестировании на добровольной основе и сам заинтересован получить рекомендации по результатам тестирования (как, например, в профориентационной консультации). Во втором случае тестирование проводится по инициативе педагога или администрации, психолога, родителей, т. е. других лиц, и эти другие больше заинтересованы в результатах, чем сам испытуемый.
Понятно, что в аттестационной ситуации вопрос о достоверности особенно актуален. И опросники, не снабженные шкалами лжи, использовать в таких ситуациях бесполезно. Наоборот, в ситуации клиента могут быть использованы такие методики, на которые испытуемый заведомо будет отвечать некорректно в ситуации экспертизы.
Вопросы достоверности и стандартизации тесно связаны между собой. Очень часто даже объективные тесты достижений, если они проходили стандартизацию на добровольцах (в ситуации консультации), должны быть рестандартизированы для того, чтобы их использовали в аттестационной ситуации.
В заключение данной главы подчеркнем, что измерение психометрических характеристик теста, конечно, является прежде всего обязанностью разра-
ботчиков тестов. Но квалифицированный школьный психолог-методист с полным курсом университетского образования должен по своей подготовке уметь самостоятельно провести простейший психометрический эксперимент и пересчитать тестовые нормы, а также психометрические индексы надежности и валиднос-ти теста на своей собственной выборке (в своем регионе, обладающем определенной национально-культурной и социальной спецификой). Без этой проверки никто не может гарантировать, что тест действительно работает в данных условиях.
На сегодня подобная психометрическая работа с тестами облегчается, так как от массы рутинных вычислений специалиста освобождает компьютер. Научная фирма «Гуманитарные технологии» (МГУ) распространяет с 1993 года специализированный пакет программ ТЕСТАН (разработчик — А. Г. Шмелев) для психометрического АНализа ТЕСТов. Задача пользователя такой программы — не тратить время на вычисления, а только содержательно разбираться в том, что означает тот или иной коэффициент.
О перспективах метода тестов в связи с компьютеризацией школы предстоит особый разговор в параграфе 2.6.
Ключевые термины: оптимальная трудность, надежность теста, ошибка измерения, ретестовая надежность, валидность теста, критерий валидное ти, прогностическая валидность, стандартизация теста, выборка стандартизации, линейная стандартизация, конверсионная таблица, репрезентативность тестовых норм, рестандартизация, критериальные нормы, достоверность теста, мо-тивационные искажения, шкалы лжи, социальная желательность, ситуация клиента, ситуация экспертизы,
ТЕСТЫ,
ИЛИ ЧТО ТАКОЕ ДОСТОВЕРНОСТЬ
(Из цикла «Критерии научности в тестологии»)
ФАЛЬСИФИКАЦИЯ ИЛИ МОТИВАЦИЯ?

Когда тест не защищен от подобных искажений, тестологи говорят, что он не обладает необходимой достоверностью. Таким образом, достоверность — это особое свойство, которому должны удовлетворять научно обоснованные тесты. Без достоверности не может идти речь о валидности результатов, ибо, получая недостоверные результаты, мы не можем судить о том психическом свойстве, которое хотим измерить.
ЖЕЛАНИЕ СООТВЕТСТВОВАТЬ
Существуют разнообразные факторы и процессы, которые приводят к сознательным и бессознательным искажениям результатов тестирования. Самый изученный фактор — это так называемый эффект «социальной желательности». Он возникает из-за стремления испытуемых давать социально-одобряемые ответы. Более всего этот фактор проявляется при диагностике личностных черт или социальных установок.
Для того чтобы нейтрализовать эффект социальной желательности или хотя бы его зарегистрировать, в профессионально разработанных опросниках присутствуют особые шкалы — так называемые «шкалы лжи». В них входят вопросы-ловушки, или провокационные вопросы. Если испытуемый слишком часто соглашается с высказываниями типа «я никогда не вру», «я всегда оплачиваю проезд в общественном транспорте», «я перехожу улицу только на зеленый свет светофора», «я никогда не опаздываю к назначенному часу», то его протокол признается недостоверным и никаких суждений на основании его тестовых результатов не производится.
В работе со школьниками следует учитывать, что дети еще не вполне усвоили социальные нормы, и для них «шкалы лжи» работают плохо или вообще не работают. Чем младше школьник, тем в меньшей степени для него пригодны опросники. Следует также учитывать, что эффект «социальной желательности» сильнее проявляется у конформных людей. Как известно, девочки более конформны, чем мальчики, и для них «шкалы лжи» вполне могут пригодиться — как и в случае со взрослыми.
СПОСОБ САМОУТВЕРЖДЕНИЯ
У мальчиков-подростков нередко проявляется обратная тенденция — при ответе на вопросы теста они невольно тяготеют к тому, чтобы продемонстрировать свою независимость, свой нонконформизм. Происходит искажение с обратным знаком — испытуемый пытается предстать хуже, чем он есть на самом деле. Если выражаться на современном молодежном жаргоне, — «крутым парнем», «отвязным», которому «море по колено» и «закон не писан». В жизни, вне ситуации тестирования, мальчишка может быть гораздо более вменяемым, но тестирование провоцирует его на асоциальную выходку. Так же реагируют на ситуацию экспертизы все неуравновешенные индивиды, для которых характерны асоциальные психопатические реакции.
Пример с подростком иллюстрирует наличие еще одного фактора, который приводит к искажениям при тестировании. Этот фактор называется «Я-концепцией». Испытуемый, которому важно самоутвердиться, искажает данные. В результате эти данные больше соответствуют не его «реальному Я», а его субъективно-желательному, или, как говорят психологи, «идеальному Я».
К сожалению, формализованных приемов для регистрации всех возможных вариантов фальсификации данных под действием «Я-концепции» просто не существует. Проследить за всем, что происходит в ситуации тестирования, может только квалифицированный и опытный психолог. Вот почему проведение личностных методик ни в коем случае нельзя доверять людям без психологического образования.
Психологи должны обязательно дополнять результаты стандартизированных методик данными об испытуемых, поступающими из других источников. Только в этом случае можно доверять стандартизированным данным.
НУ ТЫ СПРОСИЛ.
В детской психодиагностике результаты теста оказываются недостоверными еще и по такой причине: дети не совсем правильно понимают смысл того, что от них требуется в методике. Не будем забывать, что речевое развитие ребенка до 12–13 лет не позволяет ему однозначно понимать смысл многих инструкций и вопросов. Поэтому школьным психологам не следует увлекаться вербальными методиками (использующими речевой стимульный материал).
Мне лично известны случаи, когда некоторые дети 8–10 лет при шкалировании сказочных персонажей с помощью «сказочного семантического дифференциала» (методика Петренко-Стениной) выбирали все прилагательные, находящиеся слева на бланке. Психолог спросил: «Почему ты так делаешь?» И ребенок ответил: «Ведь первое слово слева «добрый» — это положительное качество, поэтому и все остальные слова слева — это положительные качества».
Это характерный пример того, когда ребенок фактически не принимает экспериментальную задачу и пытается выполнить методику «как надо». «Ну, посмотри, следующее под словом «добрый» слово «дерзкий». Разве это положительное качество?» — не унимался психолог. «Конечно, положительное, — невозмутимо отвечал ребенок. — Ведь дерзкий — это значит смелый, а смелый — это положительное качество».
А сколько неприятностей, связанных с недооценкой умственного развития детей из рабоче-крестьянской среды, принесло увлечение вербальными тестами в 20–30-е годы уходящего XX века! Понятно, что определенное развитие речевого интеллекта — необходимая предпосылка готовности ребенка к обучению в школе. Но сколько раз было показано, что, обучаясь чтению, открывая для себя увлекательный мир книги, смышленые дети — выходцы из малообеспеченных и малокультурных слоев общества — быстро наверстывают отставание в речевом развитии.
ПО ЗАКОНУ ЙЕРКСА—ДОДСОНА
В последнее время в школе широко применяются различные невербальные тесты — проективные и интеллектуальные. Тестовый материал в них — это разнообразные картинки, фигурки, схемы, кубики.
Используя такие тесты для диагностики так называемого «практического» (наглядно-действенного) и «визуального» (наглядно-образного) мышления, психолог должен учитывать, насколько ребенок мотивирован на выполнение теста.
Вот дали одному мальчику, Вове, известный тест «матрицы Равена». С этим мальчиком родители уже решали всякие ребусы, шарады, головоломки, а может быть, даже и психологические тесты. Вова знает, что иметь дело с тестом — это интересно, то есть он вполне мотивационно подготовлен к мобилизации своего интеллектуального и волевого потенциала.
Другой мальчик, Петя, взглянул впервые на какие-то абстрактные фигурки в табличках и. не увидел в них ничего забавного и интересного для себя. Его внимание в результате низкой мотивации оказывается рассеянным, не мобилизованным, он не ищет активно те закономерности, которые позволяют решить задачку. В этом случае психолог должен учитывать, что имеет место явное снижение результатов из-за «недомотивированности» испытуемого. Поэтому в начале тестирования следует представить такому испытуемому задания как игровые и достаточно увлекательные.
А вот третий мальчик — Коля. Он ерзает на стуле, у него покраснели даже уши, а руки мелко дрожат. Он волнуется и стремится показать наилучший результат. Он приучен родителями получать только похвалы, а учителями — только пятерки и не может позволить себе отступить с этого рубежа. В спорте тренеры-психологи говорят про такой настрой спортсмена — «перекачен», а в психологии в этих случаях говорят об «избыточной мотивации». Она также ведет к снижению тестовых результатов.
Срабатывает закон, который еще в XIX веке впервые сформулировали психологи Йеркс и Додсон — о криволинейной зависимости уровня исполнительской точности любой деятельности от уровня мотивации. В графической форме этот закон описывается следующей кривой.
Чтобы испытуемый показал все, на что он способен, он должен быть адекватно мотивирован — не слишком слабо и не слишком сильно, то есть сила мотивации должна быть средней, оптимальной.
Для повышения мотивации возьмите параллельную форму теста и потренируйтесь с испытуемым, выдавая после каждого его ответа оценку — «правильно» или «неправильно». Такая текущая обратная связь, как правило, стимулирует интерес и поднимает мотивацию.
Если тест не имеет параллельной формы, с помощью которой психологи могут добиться оптимальной мотивации, то такой тест не вполне соответствует требованиям достоверности.
Чтобы снизить мотивацию, надо, наоборот, отвлечь испытуемого от мыслей о том, каков будет результат. Нужно пояснить ему, что результаты первых нескольких попыток вообще ничего не решают. Можно успокоить его на легких задачках. А иногда приходится вообще поговорить о чем-то далеком от тестирования.
ПРОЕКЦИЯ И ПРОДУКЦИЯ
Нередко психологи полагают, что самые достоверные результаты можно получить с помощью проективных методик. Действительно, для этого есть основания. Главное достоинство проективных методик заключается в том, что испытуемый, как правило, не осознает, как будет проинтерпретирован тот или иной ответ на проективный стимул. Поэтому в ситуации экспертизы (когда результатами теста пользуются не только психолог и испытуемый, но и третьи лица) проективные методики оказываются незаменимым средством для извлечения достоверной информации о личностных свойствах испытуемого — о его стилевых особенностях (чертах), о скрытой, но выраженной мотивации, неудовлетворенной из-за наличия барьеров (подавленные желания).
Но не следует преувеличивать степень защищенности проективных методик от мотивационных искажений, а также от других помех, снижающих достоверность.
Недомотивированный испытуемый не выдаст никакой развернутой проективной продукции: он не создаст яркий и оригинальный рисунок, не даст развернутой цепочки интересных словесных ассоциаций, не построит связного рассказа по картинке. Признак недостатка мотивации — это бедная, крайне лаконичная, стереотипная продукция. В этом случае испытуемый не привносит в проективный стимул ничего от себя. В крайнем случае он просто повторяет то, что видит. «Это чернильное пятно», — так говорит он, глядя на чернильное пятно.
Сверхмотивированный испытуемый часто проявляет скованность, излишнюю напряженность, что закрепощает его фантазию. Характерный признак этого состояния — наличие стереотипных ответов, но обладающих избыточной детализацией. Испытуемый дорисовывает круг до самого обыкновенного колеса (стереотипное решение), но зато прорисовывает все узоры на колесном диске и шинном протекторе.
Из множества исследований хорошо известно, что избыточная мотивация снижает креативность — продуктивность воображения и конструктивного мышления. В известном рисуночном тесте «круги Торранса» это приводит к тому, что испытуемый дорисовывает круг каждый раз фактически на одну и ту же тему: вначале он рисует настенные часы
(с маятником), потом ручные (с браслетом), потом секундомер, потом ему в голову приходит, что можно нарисовать компас, но дальше этого фантазия не идет. Составляя рассказ по картинке, сверхмотивированный испытуемый либо вязнет в ненужной детализации (расписывает, как именно хирург будет резать больного, лежащего на кушетке), либо у него, наоборот, наблюдается «скачка идей» — нарушается связность и повествовательная логика рассказа.
При проведении проективных методик с детьми следует учитывать особую, ситуативно-обусловленную впечатлительность детской психики. Даже самый неискушенный в исследовании детского творчества родитель замечал, что после просмотра фильма дети рисуют и лепят что-нибудь в соответствии с темой фильма. Таким способом они «переваривают» только что полученные впечатления, производят работу по усвоению нового опыта. Поэтому не следует интерпретировать в каком-то особом смысле рисунок семьи, если после просмотра мультика про «Крокодила Гену и Чебурашку» ребенок нарисовал папу в виде крокодила.
ПРИОБРЕТАЙТЕ ОПЫТ!
Подводя общий итог сказанному, еще раз подчеркнем, что практически любой вид психологического тестирования требует профессионального опыта. Он поможет психологу адекватно учесть действие разнообразных факторов, которые снижают достоверность тестирования, и своевременно отказаться от «далеко идущих выводов».
Приобретать подобный опыт можно в процессе стажировки под руководством опытных специалистов. Подобная практика принята во всем мире.
При наличии корпоративной культуры профессиональная методика должна распространяться только среди лиц, имеющих сертификат на право ее самостоятельного использования.
Александр ШМЕЛЕВ,
доктор психологических наук,
профессор МГУ
Достоверность результатов тестирования и факторы, влияющие на достоверность
Проблема достоверности личностных опросников. Факторы, детерминирующие ответы на вопросы. При знакомстве с личностными опросниками, одним из первых возникает вопрос, насколько достоверна информация, получаемая с помощью ответов на разного рода вопросы. Обследуемый вполне может быть неискренним, сознательно вводить в заблуждение или не понять задание, или иметь искаженные представления о себе. Какие факторы детерминируют ответы испытуемых на вопросы?
2 Факторы: фальсификация и установки на ответы
Личностные опросники нередко оказываются объектом критики: в силу того что самоописание позволяет испытуемому дать о себе ложные сведения, легко исказить реальную картину. Естественно, если исходить из предположения о том, что эта возможность всегда или почти всегда реализуется, то становится бессмысленным использование опросников в диагностических целях. Из-за того что ответы могут быть без труда фальсифицированы, ссылаются на опросы одних и тех же лиц, проведенные с разной инструкцией по той же самой шкале. В одном случае просят отвечать, например, подражая какому-либо типу поведения, в другом — правдиво. Однако нет оснований полагать, что у испытуемого обязательно должно быть желание обмануть, и это играет сколь-нибудь важную роль. Ко дню сегодняшнему в психодиагностике накоплено немало данных, указывающих на обратное—стремление обследуемых быть искренними.
Фальсификация ответов, о вероятности которой следует помнить в ситуациях, характеризующихся высокой степенью социального контроля над результатами, полученными обследуемым, встречается крайне редко.[1] Работы последних лет показывают, что многие из применяемых психологами опросников достаточно чувствительны к намеренному искажению истины. Использование разных личностных опросников в трех экспериментальных группах с инструкциями «отвечать честно», «произвести наилучшее впечатление», «произвести наихудшее впечатление», показало, что фальсификация легко обнаруживается. Сознательное искажение сведений о себе, чаще всего возможность, нежели реальность поведения обследуемого. Другое дело — влияние факторов неосознаваемых, но тем не менее существенно воздействующих на процесс «переваривания» вопроса и формирование ответа на него.
Сила социально одобряемых ответов связана с более общей потребностью индивида в самозащите, уклонении от критики и социальном согласии. Вместе с тем наличие потребности в помощи, внимании со стороны других людей может привести к выбору тех ответов, которые не соответствуют социальным нормам, неблагоприятны для описания самого себя. Обследуемый; испытывающий потребность в чем-то, для ее удовлетворения склонен представлять себя менее благополучным, нежели на самом деле.[2]
Фактор социальной одобряемости приобретает наиболее существенное значение в тех опросниках, содержание вопросов которых тесно связано с имеющимися в обыденном сознании стереотипами «хороших» и «плохих» черт личности, особенностей поведения. Важным стимулом к социально одобряемым ответам является установление испытуемым зависимости собственного благополучия от результатов исследования. В таком случае действие установки может оказаться настолько сильным, что будет определять едва ли не каждый ответ, а тем самым она окажется единственной измеряемой характеристикой.
Известны способы защиты личностных опросников от стремления испытуемых отвечать в соответствии с тем, что «общепринято» (разработка нейтральных заданий, введение в опросники так называемых «шкал лжи»). Однако эффективность этих мер не настолько высока, чтобы использовать опросники в случаях, способствующих актуализации этой установки, н-р при профотборе высокомотивированных или нежелающих обследоваться лиц.
Социально одобряемые ответы — лишь одна из установок. Еще одна из них установка на согласие — это тенденция соглашаться с утверждениями или отвечать на вопросы только «да», независимо от их содержания. Чаще всего установка на согласие проявляется в тех случаях, когда вопросы неоднозначны, неопределенны. Влияние этой установки минимизируется тем, что при составлении опросника добиваются того, чтобы число вопросов, для которых ключевой ответ «да», было равно числу вопросов с ключевым ответом «нет». Другими словами, конструируется сбалансированная шкала. Установка на согласие наименее вероятна в том случае, когда задания понятны, недвусмысленны и, что очень важно, относятся к конкретным формам по ведения.
Другая установка, с которой нередко приходится иметь дело, — установка на неопределенные ответы. Эти ответы иногда называют ответами средней категории, поскольку они находятся как бы между «да» и «нет». Обследуемый склоняется к преимущественному выбору ответов типа «не знаю», «не уверен» или «затрудняюсь ответить». Разумеется, эта установка возникает в том случае, когда предусмотрен промежуточный тип ответа и лучший способ ее избежать — использование дихотомических заданий («да»\нет»). Еще один способ устранения влияния данной установки заключается в формулировании таких вопросов, при ответе на которые выбор средней категории не будет притягателен. Клайн отмечает, неопределенные ответы часто возникают, когда крайние варианты не затрагивают испытуемого, безразличны для него.
Еще одна установка называется установкой на «крайние» ответы. Проявляется при использовании многоэлементной рейтинговой шкалы, по которой предлагается дать ответ на каждое задание. Единственный способ избежать проявления этой установки заключается в отказе от рейтинговых шкал, которые редко используются.
Установка на необычные ответы, проявляется в тенденции давать необщепринятые, необычные ответы. Возникновение этой установки не зависит от содержания и типа предлагаемых обследуемому заданий.
[1]Фальсификация ответов, о вероятности которой следует помнить в ситуациях, характеризующихся высокой степенью социального контроля над результатами, полученными обследуемым, встречается крайне редко. Для того чтобы убедиться в этом, достаточно представить себе пациента, пришедшего на обследование к психологу с целью индивидуализации медицинского диагноза. Специальные исследования в клинике психических заболеваний показали, что возможность фальсификации ответов больными весьма незначительна. Так, только 11% больных смогли симулировать «нормальный» ММРI-профиль. Некоторые же больные, стремясь выглядеть здоровыми, отвечали на вопросы так, что в конечном счете их личностные характеристики предстали более патологическими, нежели в реальности.
[2] По мнению Дж. Нанели, исследования, в которых изучались социально одобряемые ответы, позволяют сделать следующие заключения:
а) у большинства испытуемых определенного общества наряду с разными личностными особенностями наблюдается известное единство в понимании того, что считать «социально положительным», — поэтому необоснованным, нелогичным является мнение об умышленном искажении испытуемыми своих ответов при использовании личностных опросников;
б) если создать шкалу, состоящую из вопросов, измеряющих различные черты личности, и при этом выдвинуть условие, чтобы испытуемые отвечали на них только «хорошо» или «плохо», а затем рассчитать общий количественный показатель (путем сложения «хороших» ответов и, со знаком минус, «плохих»), то она будет высоко коррелировать с оценками по многим другим личностным опросникам.
Таким образом, получается, что фактором социальной одобряемости можно объяснить значительную долю вариативности в показателях мультифакторных опросников. Более того, усматривается определенная аналогия между фактором социальной одобряемости и G-фактором интеллекта. Но это не означает невозможность выделения других факторов, тех, которые соответствуют измеряемому свойству. Отечественные исследователи отмечают, что при факторизации одномерного опросника почти всегда выделяются два фактора. Один из них соответствует измеряемому свойству, второй — социальной желательности ответа, причем его сила зависит от диагностической ситуации и, как полагают исследователи, уровня подозрительности контингента обследуемых.
Известны способы защиты личностных опросников от стремления испытуемых отвечать в соответствии с тем, что «общепринято» (разработка нейтральных заданий, введение в опросники так называемых «шкал лжи»). Однако эффективность этих мер не настолько высока, чтобы использовать опросники в случаях, способствующих актуализации этой установки, н-р при профотборе высокомотивированных или нежелающих обследоваться лиц. В то же время нельзя и абсолютизировать роль установки на социально одобряемые ответы. Изменения в результатах опроса при переходе от стандартной инструкции к инструкции отвечать так, чтобы «выглядеть в лучшем свете», могут быть расценены как направленность большинства людей на описание их действительного типа поведения.
Заметим также, что так называемое «социально одобряемое поведение» имеет множество аспектов, полный учет которых вряд ли возможен. Исследование больных разной нозологической принадлежности обнаруживает еще большую размытость того, что называется социально одобряемым ответом. Влияние установки на социально одобряемое поведение минимизируется в тех диагностических ситуациях, когда испытуемый явно заинтересован в предоставлении предельно правдивой информации о себе. По мере того как испытуемый из объекта исследования становится активным помощником экспериментатора, «экспертом самого себя», возрастает и достоверность получаемых данных. Традиционная психометрическая модель диагностического обследования, задающая известную отстраненность экспериментатора от испытуемого в процессе обследования, не универсальна и не всегда способствует желаемой объективности результатов.

