Раздел 1 Основные требования к конструированию и проверке психологических тестов
1.1. Надежность психологических тестов (опыт психологической интерпретации)
По мере того как расширилось практическое применение тестов и увеличилось их изготовление, все настоятельнее становилась необходимость разработки некоторых, методически обоснованных требований к подобным психологическим пробам. Эти требования складывались в ходе самой работы над тестами и над их совершенствованием, а большее или меньшее соответствие тестов этим требованиям свидетельствовало об их качестве. Кроме того, требования, выступая в качестве некоторого критерия методического уровня тестов, давали возможность оградить психологию от всевозможных безграмотных подделок, претендующих на диагностическо-прогностическое испытание психологических особенностей людей.
Изготовление методически грамотного теста представляет большую и трудоемкую задачу, решение которой предполагает проведение специальных исследований. Если даже не касаться теоретической основы тестов, а остаться лишь в рамках самой по себе методики, то следует признать, что путь от первого рабочего варианта до создания практически приемлемой пробы требует не одного года систематического труда. И, в конце концов, даже США, страна, выпускающая до 4/5 современных тестов, не может похвалиться тем, что они стоят на уровне современных методических вопросов.
Следует сказать, что разработка формальных требований к психологическим тестам, начавшаяся еще в 20–30 годы XX века, сыграла положительную роль в развитии этого направления исследований. Но сейчас понятно, что при всей необходимости формальных требований, они не дают всего того, что позволило бы полно и всесторонне оценить тест даже с методической стороны. Особенно актуальным представляется в свете сказанного истолкование требований к надежности и валидности тестов.
Мы уже обращали внимание на то, что о значении этих требований можно судить хотя бы по факту того, что фирмы и издательства, торгующие тестами в США, как правило, указывают в рекламных проспектах коэффициенты надежности и валидности своей продукции, а также и то, на каких выборках и в какие годы эти коэффициенты получены. Но такая общепризнанность указанных требований не означает, что они не нуждаются в дальнейшем уточнении; и действительно, вопросы надежности и валидности активно обсуждаются в тестологической литературе.
Для дальнейшего анализа важно еще раз уточнить основные понятия.
• Надежность — такой признак психологического теста, который позволяет судить о том, насколько внушают доверие полученные при его применении данные, насколько обоснованно ожидание исследователя, что при сохранении известного минимума неизменных условий, испытуемые в выборке останутся и при повторных испытаниях примерно на тех же порядковых (ранговых) местах. Уровень коэффициента надежности и его статистическая значимость укажут на вероятность осуществления этого ожидания.
• Валидность — признак теста, по которому можно судить, насколько данные, полученные при применении теста, совпадают с показателями какой-то деятельности испытуемых: учебной, спортивной, производственной. Валидность – это действенность теста, характеризующая возможность ставить практически важный диагноз и в некоторых случаях намечать прогноз. Можно полагать, что исследователь, применяющий тесты, обычно рассчитывает в дальнейшем на практическое использование полученных результатов, то есть имеет в виду валидность. Вопрос о валидности потребует специального рассмотрения.
Продолжая обсуждение выделенной проблемы, напомним, что надежность и валидность взаимосвязаны. Надежность есть необходимое, но не достаточное условие валидности, из чего следует, что надежные показатели теста не могут быть валидными. Но надежные показатели сами по себе не представляют валидности.
Простое рассуждение подтверждает справедливость приведенного высказывания. В самом деле, если тест отличается низкой надежностью, то это значит, что его показатели весьма сильно варьируют от одного испытания до другого. Испытуемый, который в одном испытании выступал как представитель наиболее успешно работавшей части, в другом может попасть в наиболее неуспешно работающую часть выборки. Сопоставлять данные одного из этих испытаний с показателями какой-то деятельности испытуемых очевидно бессмысленно. С другой стороны, высокая надежность тоже еще не дает права считать, что результаты теста могут быть по существу сопоставимыми с показателями деятельности. Успешность или неуспешность по тесту может представлять собою нечто самодовлеющее или не-соотносимое с какими-либо другими уместными для данного исследования внешними – по отношению к тесту – показателями. Поэтому испытания с применением заданий психологического характера, надежность и валидность которых по отношению к данной популяции или выборке не установлены, не могут иметь никакого диагностического практического значения, хотя их при начальном этапе подготовки теста приводят лишь как первый шаг исследовательского поиска.
Во второй части этой книги мы уже касались данной темы в связи с проблемой надежности психофизиологических показателей (см. раздел 2, подраздел 2.2). Напомним, как устанавливается надежность психологического теста, и продолжим обсуждение этого вопроса.
В тестологической литературе описываются несколько способов, рекомендуемых для этой цели.
1. Повторное проведение испытаний тем же тестом через какой-то срок, длительность которого определяется характером теста и задачами исследования.
2. Проведение испытаний двумя вариантами, двумя различными «формами» теста, обычно построенными по одному принципу.
3. Разделение, «расщепление» теста на две половинки, обычно на половинки, состоящие из четных и нечетных заданий.
4. Проведение двух эквивалентных форм теста. Этот способ представляет собою уточнение 2-го способа [5] .
В установлении надежности сопоставляют, таким образом, два получаемых показателя и чаще всего прибегают к вычислению коэффициента корреляции по Пирсону – Бравэ или по Спирмену. Надежность тем выше, чем больше полученный коэффициент приближается к единице, и наоборот. Оставаясь в пределах формального анализа, можно отметить, что коэффициент корреляции будет тем выше, чем меньше дисперсия, то есть разброс данных, получаемых конкретным испытуемым по тесту. Если по одному из сопоставляемых показателей испытуемый окажется в верхней части таблицы, составленной по убыванию успешности, а по другому показателю в нижней ее части, то очевидно дисперсия данных по тесту – по крайней мере в данной выборке – велика и не позволяет делать вывод о том, какова, собственно, его характеристика по результатам этого психологического исследования. Напротив, чем дисперсия меньше, тем больше оснований для определенных психологических выводов. В этом смысле корреляция может дать достаточную информацию для суждения о надежности.
Представим себе, исследователь поставлен перед таким фактом: надежность разрабатываемого им теста оказалась слишком низкой. Что же делать, как добиваться ее повышения?
Очевидно, что даже внимательное ознакомление со способами установления надежности приводит к заключению, что дисперсия, снижающая уровень коэффициента корреляции, зависит не от одной, а от нескольких различных причин.
В самом деле, проверяя надежность способом расщепления, исследователь получает информацию о внутренней однородности теста, о его гомогенности. Если тест – по составу включенных в него заданий – разнороден, то это обнаружится в том, что при случайном его разделении на половинки испытуемые будут выполнять разнородные по своей психологической трудности задачи, и вряд ли можно ожидать, что их успешность в каждой из этих половинок будет одинаковой. При однородности заданий можно полагать, что большой разницы в успешности по половинкам не будет. Следовательно, дисперсия в этом способе показывает, насколько однороден тест.
Совсем другую информацию получает исследователь при повторении того же теста через какой-то срок. Дисперсия в таком случае может зависеть от того, что тот процесс, который испытывался тестом, изменился. Почему это произошло, на этот вопрос статистика не ответит. Но факт большего или меньшего изменения процесса по тому параметру, на который направлен тест, она обнаружит и зафиксирует. Вопрос же о гомогенности теста в данном способе не актуализируется.
И второй, и четвертый способы выдают совсем особую информацию – это информация о том, насколько близки – по существу – две различные «формы» теста, два его варианта. Исследователь может считать, что если эти две формы при испытаниях дали одинаковые или близкие результаты на избранной им выборке, то из этого следует, что при разработке теста найден достаточно отчетливый психологический признак для испытания. В этом случае вновь ставится вопрос о гомогенности, но уже не для одного теста, а для теста и варианта, для двух более или менее эквивалентных «форм».
Выходит, что понятие «надежность» имеет совершенно различный смысл в зависимости от того, какой из способов исследователь возьмет. Поэтому нельзя признать удовлетворительным решение, при котором утверждается, что все четыре способа представляют собою оценки повторений показателей по тесту и в одних случаях тот, а в других – иной из способов обеспечивает получение лучшей меры (надежности). Но дело не в лучшей или худшей мере надежности, дело в том, что это меры разной по существу надежности. Скорее можно согласиться с авторами «Стандартных требований…», которые полагают, что коэффициент надежности в современном понимании – это родовой показатель, охватывающий несколько ее дифференцированных видов, и каждый вид имеет свой особый смысл (Standards for Educational and Psychological Test, 1974). Однако о том, что обусловливает эти различные виды надежности, от чего зависит малая или большая дисперсия, влияющая на коэффициенты этих различных видов надежности, – обо всем этом в «Стандартных требованиях…» ничего не говорится.
По-видимому, было бы совершенно нелогичным, давая характеристику надежности, сообщить какой-то коэффициент без раскрытия того, каким способом он определен и почему автор считает, что надежность в данном случае должна быть представлена именно таким коэффициентом. Очевидно, необходимо достаточно обоснованно истолковать эти различные по своей сущности коэффициенты.
Что же устанавливается при сопоставлении результатов по двум половинкам теста (способ расщепления)? Более всего оснований считать, что так устанавливается надежность самого теста как диагностического инструмента. Несомненно, что следует считать надежным только тот тест, который состоит из однородных и притом равно трудных задач. Оценка успешности работы испытуемых выводится из общего числа правильно выполненных ими заданий. Если тест отвечает своему назначению как диагностический инструмент, то можно полагать, что в любой из произвольно выбранных его половинок испытуемый должен правильно выполнить примерно одинаковое число задач. Правильность этого предположения исследователь проверяет, вычисляя коэффициент корреляции между результатами, показанными испытуемыми по двум половинкам теста.
А сравнение результатов, показанных испытуемыми при первом и втором, повторном, тестировании имеет совсем другой смысл. Оно говорит о том, насколько устойчиво, стабильно то свойство психики (функция, умение, способность и пр.), для диагностирования которого был применен тест. Оставим пока открытым вопрос о том, чем объясняется устойчивость или изменчивость диагностируемого свойства. Важно, что коэффициент корреляции, вычисляемый в этом случае, указывает на степень стабильности диагностируемого свойства. Об этом будет свидетельствовать сохранение каждым испытуемым своего порядкового места в выборке (в рангах или в сигмальных единицах) при первом и повторном применении теста через определенный промежуток времени.
В такой интерпретации ясно обнаруживается, что разные способы установления надежности относятся по существу к разным объектам. При вычислении коэффициента между результатами, показанными в каждой из двух половинок теста, устанавливается надежность самого теста, при вычислении того же коэффициента между результатами первого и второго испытания устанавливается стабильность диагностируемого свойства.
Весьма возможно, что невысокая надежность теста самого по себе (способ сравнивания половинок) окажет неблагоприятное воздействие и на результаты как первого, так и повторного испытаний. Поэтому следует заранее позаботиться о том, чтобы такое воздействие было устранено или сведено к минимуму. Для этого нужно соблюдать естественную очередность установления надежности: сначала нужно проверить надежность теста, добиться путем устранения ненадежных задач надлежащего его качества, как измерительного инструмента, а затем переходить к установлению надежности диагностируемого свойства.
Что же касается способов установления надежности теста, заключающихся в сопоставлении двух параллельных или эквивалентных форм-вариантов, то выводы из таких сопоставлений скорее можно понять как аргумент в пользу психологической значимости единого принципа, положенного исследователем в основу создания того и другого варианта теста. Принцип проверяется путем сравнения результатов успешности испытуемых, выполнявших две подготовленные исследователем формы или два варианта теста. С точки зрения применения теста эти способы естественнее всего толковать как изучение возможности взаимозаменяемости вариантов теста. Но сколько-нибудь убедительного ответа на вопрос о надежности каждого из вариантов эти способы, по-видимому, не могут дать. О неопределенности выводов, получаемых при сопоставлении двух форм или вариантов теста для установления надежности, пишут и авторы «Стандартных требований…» (Standards for Educational and Psychological Test, 1974). Поэтому, по крайней мере до тех пор, пока не будет предложено новых толкований этих способов, применение их для установления надежности представляется необоснованным.
Выше было сказано, что способ разделения теста на две половины позволяет охарактеризовать надежность самого теста как диагностического инструмента, а способ повторного тестирования дает материал для суждения о надежности (или стабильности) исследуемого свойства психики. Употребление слов «надежность теста и надежность свойства психики» не должно маскировать важнейшей специфической черты психологических тестов – их результаты, итоги работы испытуемых всегда являются продуктом взаимодействия испытуемого (со всеми присущими ему к моменту испытания особенностями) и ситуации психологического испытания. Здесь испытуемому представляется тест с его конкретной наполненностью: словами, рисунками, заданиями, требующими логико-перцептивных действий, от выполнения которых зависит успешность его работы. Надежность теста и надежность (стабильность) диагностируемого психического свойства не существуют «вообще», они всегда выступают как продукт контакта конкретной ситуации испытания с конкретными выборками и совокупностями испытуемых. На первый взгляд высказанные суждения кажутся ненужной тривиальностью – каждому ясно, что никак по-другому получить сведения о надежности нельзя. Однако следует принять во внимание специфические, укоренившиеся у неосведомленных людей мнения о тестах, чтобы согласиться с тем, что дополнительные разъяснения по этому пункту не окажутся лишними.
...
Вот один, далеко не охватывающий всей сложности ситуации пример: испытуемому предлагается вычеркивать из четырех слов одно, то, которое «не подходит к трем остальным», – это задание из теста на классификацию. Тест исследует простую операцию логического обобщения: нужно найти такой ярко выраженный функциональный признак, который присущ трем объектам и отсутствует у четвертого. Даны слова: репа, капуста, морковь, свекла. Ученик четвертого класса одной из московских школ при выполнении теста вычеркнул слово «свекла»; при опросе мальчик объяснил, что первые три овоща можно есть сырыми, а свеклу – только вареной. Впрочем, он не был твердо уверен в правильности такого решения. Хотя задание было выполнено, но собственное решение осталось у испытуемого сомнительным, и возможно, что при повторном тестировании он выбрал бы другое решение. У ребят того же возраста, проживающих в сельской местности, задание, напротив, не вызывало ни малейших сомнений: тотчас по прочтении вычеркивалось слово «капуста» по ясному для них признаку: остальные три овоща – «корешки».
Как известно, опрос испытуемых после выполнения теста обычно не практикуется – в том и состоит удобство тестирования, что за короткое время – порядка одного часа или немногим более – можно получить некую информацию о психологическом признаке, свойственном целой группе испытуемых. Нет и ясных методических правил – как использовать данные такого опроса.
Поэтому исследователь, как правило, не узнает, чем руководствовался испытуемый, который пришел к этому, а не к иному решению, выполняя тест. Только обратившись к процедурам, которые предшествуют выходу теста в свет, исследователь при изучении результатов применения теста в городских и сельских школах мог бы обратить внимание на то, что есть задачи, которые снижают надежность теста в одних случаях (в городских условиях) и не снижают в других.
В свое время Б. Саймон (1958), анализировавший применение интеллектуальных тестов в английской школе, обратил внимание на то, что авторы включают в свои тесты задания, состоящие из непонятных для некоторых испытуемых слов. Он с полной ясностью показал, что слова, вошедшие в словарь ребенка одного социального слоя, могут быть неизвестны и непонятны ребенку из другого социального слоя. Тесты, о которых писал Саймон, были рассчитаны на английского ребенка из обеспеченных слоев населения, с достаточно высоким уровнем образования окружающих его людей. Все, что пишет данный специалист, – абсолютно верно. Но дело не только в этом: дело и в том, насколько эти функциональные признаки освоены испытуемыми в их повседневной жизни и практике.
Если бы исследователь опросил испытуемых, известно ли им, что такое свекла, капуста и т. д., то можно утверждать, что не нашлось бы испытуемых, которые этих овощей бы не знали (речь идет, положим, об испытуемых, проживающих на большей части территории СССР, жители Африки, возможно, о подобных овощах не знают).
Но «знать» это одно, а уметь логически обработать – другое. Последнее зависит не от одного владения правилами логической обработки, но и от признаков, выделяемых для такой обработки.
Поэтому специфика материальной наполненности теста, с одной стороны, и особенности выборки или совокупности испытуемых – с другой, приводят в различных их сочетаниях к неодинаковым характеристикам надежности одного и того же психологического теста при его повторных проверках. Это признается современной тестологией. Как можно заключить, тестологи не считают надежность неотъемлемым признаком самого теста. Отсюда возникают требования к четкому описанию выборок, на которых устанавливалась надежность.
Так, авторы «Стандартных требований…» пишут:
...
«В руководящих указаниях по применению теста при сообщении данных о надежности… выборки должны быть описаны достаточно подробно, чтобы лицо, пользующееся тестом, могло судить, в какой мере приведенные данные приложимы к тем испытуемым и к тем проблемам, с которыми оно имеет дело». В комментарии, сопровождающем это требование, содержатся такие указания: «…надежность теста, предназначенного для отбора работников, должна быть установлена путем тестирования кандидатов (из числа которых будет произведен отбор), а не студентов колледжа и не лиц, уже состоящих на работе» (Standards for Educational and Psychological Test, 1974, § Г. 2).
Мало того, выдвигается и такое пожелание: «В руководящих указаниях по применению теста следует представлять демографическую информацию – распределение испытуемых по возрасту, полу, социально-экономическому и интеллектуальному уровню, трудовому статусу, биографии и времени пребывания в данной группе» (Standards for Educational and Psychological Test, 1974, § Г. 2.21).
Из сказанного вытекает, что исследователя не может удовлетворять информация о том, что надежность теста по сведениям, которые приводятся автором теста, достаточно высока. Совершенно необходимо проверить эту надежность в тех условиях, в которых тест будет применяться, с учетом всех тех особенностей, которые присущи интересующей исследователя выборке или популяции.
И сами диагностируемые свойства обнаружат себя по-разному, в зависимости от того, какой материал и какой выборке будет предъявлен для работы. Допустим, диагностируется некое элементарное умение обобщать, однако степень познанности испытуемыми материала, на котором изучается это умение, жизненный опыт в выделении функциональных признаков, подлежащих обобщению, – все это неизбежно отразится на конечных результатах работы испытуемых. Следовательно, диагностироваться будет не одно лишь элементарное умение обобщать, но и то, насколько близки испытуемым конкретные объекты, предлагаемые им в тесте.
Известно, что нередко испытуемые дают абсурдные ответы на вопросы или задачи теста, хотя, казалось бы, эти вопросы и задачи ничего трудного в себе не содержат. Если исключить из рассмотрения возможные случаи патологии и оставаться в рамках работы с людьми, обладающими нормальным мышлением, то абсурдные ответы, по-видимому, можно объяснить тем, что испытуемый, не имея опыта логической обработки объектов, в которых представлены задачи теста, начинает искать ответы по ассоциации, по случайным реминисценциям и т. п. Такого рода ответы не должны обмануть психолога-экспериментатора: понятно, что он, как специалист, не имеет права их оценивать в качестве доказательства алогичного мышления данного субъекта. Скорее всего, подобные ответы нужно отнести к категории так называемых «вынужденных». Испытуемый считает себя обязанным (раз он согласился участвовать в опыте) что-то ответить. Но он не умеет логически обрабатывать чуждый ему материал, у него нет такого опыта, само осознание правил такой обработки ему никогда ранее не требовалось. Это может быть и не единственная, но существенная и часто встречающаяся причина нелепых ответов. Заметим, что в истории применения тестов встречались исследования, в которых авторы описывали случаи тестирования своеобразных по национально-культурно-му составу выборок и на основании полученных результатов пытались делать заключение о каких-то особенностях мышления участников тестирования. Между тем здесь было бы более уместно говорить не об особенностях мышления как такового, а о своеобразии словарно-понятийного запаса испытуемых и о сложившихся в их практике способах его логической обработки. В не столь резко выраженном виде вопрос этот постоянно стоит перед психологом. Поэтому надежность, установленная на одной выборке, совсем не обязательно будет воспроизведена на любой другой.
Сказанное относится не к одним лишь интеллектуальным тестам, но также и к перцептивным, моторным и всевозможным тестам «специальных способностей». Вообще нет психологических тестов, которые не затрагивали бы прошлый опыт испытуемых, их знания и умения. Отсюда вытекает, что материальная наполненность теста, объекты, из которых построены задания, действия, которые нужно выполнить испытуемым, – все это ставит выборки, представляющие различные совокупности в не вполне одинаковые условия, а следовательно, коэффициенты надежности, полученные на различных выборках, могут сильно расходиться между собою.
Представляется необходимым более подробно остановиться на том, как должна устанавливаться надежность испытуемой функции. Адекватный прием установления этой надежности – повторное тестирование. Однако при использовании этого приема перед психологом неизбежно встает такой вопрос: если тесты действительно испытывают психологические свойства или функции, то совершенно неизбежно то, что эти диагностируемые признаки лишь в исключительных случаях останутся через достаточно длительный срок по своему уровню неизменными. В общем, чем короче срок от первого до второго испытания, тем – при прочих равных условиях – больше шансов, что диагностируемые психологические признаки сохранят зафиксированный уровень первого испытания, а чем срок больше, тем шансы на сохранение уровня будут ниже. Следовательно, как будто целесообразно проводить повторное тестирование через короткий срок после первого. Но тут есть и другая сторона дела: если повторить тестирование через небольшой срок, то испытуемые – по крайней мере, некоторые из них – попытаются воспроизвести свои прежние ответы по памяти и, следовательно, отойдут от смысла выполнения заданий.
Вряд ли можно подсказать исследователю, какой срок можно считать оптимальным (хотя такие сроки указываются некоторыми авторами руководств по тестированию).
Специалист, исходя из психологической сущности теста, условий, в которых тест предлагается испытуемым, считаясь с характеристиками групп испытуемых, должен сам выбирать такой срок. Естественно, что выбор должен получить научное обоснование с учетом только что перечисленных и, возможно, каких-то еще моментов. Так, например, если диагностируемое свойство психики таково, что как раз в период проведения тестирования оно интенсивно развивается, то при проведении повторных испытаний вряд ли можно даже при относительно небольшом разрыве во времени между повторным и первым испытаниями рассчитывать на получение высокого коэффициента надежности – процесс интенсивного развития, очевидно, приведет к тому, что обозначится разница между испытуемыми: одни пройдут его с большим, другие – с меньшим успехом, а это, в свою очередь, может зависеть от мотивации, от усвоенных приемов работы над материалом, контактов с учителями и многого другого. Можно полагать, что менее интенсивный процесс развития в данной выборке испытуемой функции может обеспечить более высокие показатели надежности.
Поэтому нельзя признать достаточным простое указание на то, что проводилось повторное тестирование и что при корреляции установлен такой-то коэффициент надежности. Исследователь, предлагающий читателю результаты своего тестирования, возможно претендующий на популяризацию своей методики, должен кратко и ясно описать не только процедуру установления надежности, но и обоснование избранного им срока от первого до повторного тестирования. Психологический тест, диагностирующий свойство, которое в период испытания находится в процессе интенсивного развития, допустим умение обобщать (во время прохождения некоторых разделов курса математики), может характеризоваться не очень высоким коэффициентом надежности, что, разумеется, не может быть истолковано как недостаток методики. Иными словами, коэффициент надежности, получаемый при сопоставлении первого и повторного тестирования, не следует рассматривать только с его узко формальной стороны, по его абсолютному значению, он должен интерпретироваться как показатель определенных изменений, развития исследуемого свойства. Вероятно, в некоторых случаях исследователю, представляющему свой тест, следовало бы рассмотреть по частям ту выборку, на которой устанавливалась надежность. При таком рассмотрении выделится часть выборки, люди, прошедшие сходный путь развития, а также другая часть, где развитие испытуемых шло особенно быстрыми темпами, и часть выборки, где развития у испытуемых практически совсем нельзя заметить. Каждая часть выборки заслуживает специального анализа и истолкования.
Совершенно другие требования к надежности должны быть предъявлены к методикам (или тестам), диагностирующим стойкие природные, а тем более – генетически обусловленные психофизиологические особенности, например свойства нервной системы в их физиологических показателях. Коэффициенты надежности при сопоставлении первого и повторного испытания даже при значительных сроках, отделяющих первое от повторного, тут должны быть достаточно высоки. Только специфические функциональные состояния испытуемых могут снизить эту надежность. Таким образом, вопрос о надежности того психологического или психофизиологического свойства, которое испытывается тестом, не решается всегда однозначно. Решение зависит от сущности самого диагностируемого свойства.
Мы осветили некоторые важные стороны вопроса надежности психологических диагностических методик. Исследователь может разрабатывать тесты для решения своих частных задач, например задач теоретического порядка, не связанных с диагностическими и прогностическими целями. Установление валидности подобных тестов не может считаться обязательным делом. Однако если результаты тестирования могут хотя бы в малейшей степени повлиять на судьбу людей, проходивших испытания, необходимо знать, насколько тест пригоден для того, чтобы выполнить свое назначение, и насколько высока вероятность того, что результаты тестирования отражают такие стойкие индивидуально-психологические особенности людей, которые реализуются в их учебной и производственной деятельности и так или иначе влияют на ее успешность и эффективность.
Психолог, работающий в области психологической диагностики, должен знать, каков сложившийся в настоящее время аппарат установления валидности, какие трудности и неясности возникают при его использовании. Но это особый вопрос, хотя и тесно соприкасающийся с вопросом о надежности, он требует специального рассмотрения.
1.2. Статистика – аппарат доказательства психологической диагностики
Конструирование психолого-диагностических методик ставит перед психологом два вопроса.
1. Какие признаки, какие психологические или психофизиологические особенности должны быть выделены в качестве объекта диагностирования?
2. Как построить методику, как доказать, что полученные с ее помощью данные диагностируют выделенные признаки, другими словами, что методика отвечает замыслу?
Первый вопрос – вопрос о содержании методики. Ответ на него должен раскрыть ту психологическую или психофизиологическую реальность, в изучении которой – по теоретическим или практическим соображениям – заинтересован психолог. Такой ответ может дать только психологическая теория. Только она может с надлежащей компетентностью обозначить объекты диагностирования, их «гомологию» и иерархию. Понятно, что диагностика служит не только для того, чтобы подтверждать гипотезы, она может и опровергать их, и выдвигать новые. Но диагностируемые признаки в конечном счете систематизируются теорией.
Однако нередко при психологическом диагнозе пренебрегают теорией, а стремясь якобы приблизиться к требованиям практики, оперируют случайным и неустойчивым набором теоретически неясных психологических признаков человека и не заботятся о том, чтобы научно обосновать объект диагностирования и ввести его в систему теоретических понятий. В конечном счете это отражается на самой методике и на эффективности ее применения. Пора уже признать, что решающее слово в определении объекта психологической диагностики принадлежит теории. Тестология избегала такого признания, и это отнюдь не пошло ей на пользу. Только в последние годы эмпирика в тестологии начинает уступать место вытесняющей ее теории.
Недостаточную теоретическую обоснованность того, что диагностируется, тестология пыталась возместить детально разработанной техникой диагностирования, обработки, сопоставлений и пр. Предполагалось, что созданный для этой цели хорошо продуманный аппарат поднимет полученные результаты на уровень теории, если не общепсихологической, то хотя бы своей собственной, тестологической. Это была бы если не полностью независимая от психологии, то все же относительно самостоятельная теория, теория – «как диагностировать».
Однако при всех достоинствах созданной тестологией методической системы скрупулезной статистической проверки тестов из результатов этой проверки никак не вытекали собственно теоретические принципы. Поэтому и задача внесения этих принципов в тесты посредством применения теории вероятностей и статистики оказалась нерешаемой. Складывались принципы тестирования, но не принципы выделения предметов тестирования. Форма и содержание предстали разобщенными, и стало ясно, что форма не обеспечивает содержание. Необходимо же было обеспечить их единство.
Трудность состоит в том, что признание доминирующей роли содержания никак не означает, будто форме, технике, методической стороне дела можно отводить второстепенное и несущественное место. Диагностика стоит на сравнении, ранжировании, сопоставлении. Для всего этого абсолютно необходима методическая точность, иначе при известной массовости получаемых данных диагностическое исследование теряет смысл. Попробуйте опереться не на методическую строгость, а на «общепсихологическую интуицию» отдельных экспериментов – и вы тотчас же лишитесь критериев, а с ними – и научного содержания диагноза.
Методическая идея, даже если она теоретически обоснована, еще не превращается в методику; для этого должна быть продумана и последовательно осуществлена особая и весьма трудоемкая процедура. Только дилетантам представляется, будто эта процедура для всех методик одинакова и независима от идеи. На деле оказывается, что «доведение» методики, ее проверка есть задача также в большей мере теоретическая и чаще всего требующая как психологической, так и математико-статистической подготовки.
Представление о том, что формальная сторона подготовки методики вроде как не относится к психологу, а может быть передана в руки подсобного специалиста, есть представление ложное. Психолог-диагност должен вникать в суть статистических приемов, которые служат критериальными для его методик, так как эти приемы органически связаны с методическими идеями.
Получившие распространение в наши дни и хорошо обоснованные с математической стороны статистические приемы применялись и применяются в диагностике лишь потому, что они в большей или меньшей степени отвечали и отвечают определенным психологическим воззрениям. Поэтому их нельзя абсолютизировать и применять в любых случаях, как некий статистический универсальный ключ. Неадекватное применение статистических приемов может привести к столь же плачевным результатам, как и пренебрежение к статистике.
В частности, это относится к статистическим приемам проверки надежности и валидности методик и к понятию так называемой «нормы».
Речь идет, таким образом, о том, что статистический аппарат, который необходим в работах по психологической диагностике, не находится вне этой диагностики, это аппарат самой диагностики и ее обслуживания, его назначение состоит в том, чтобы методическая идея была последовательно реализована, чтобы результаты ее истолкования были вполне определенными, чтобы они отличались необходимой доказательностью. Иными словами, статистика есть аппарат доказательства психологической диагностики. Логический смысл самой теории как бы теряет силу с того момента, как методика поступает в руки экспериментаторов, работающих часто изолированно друг от друга по месту и времени. С этого момента вступает в силу аппарат методики, прежде всего «статистика, с ее неукоснительными правилами сбора, обработки и сопоставлений материала, с ее вероятностным подходом к оценке полученных выводов». Психолог, недооценивающий роль статистики, может добиться только того, что его выводы будут поставлены под сомнение.
Статистика применяется для того, чтобы установить меру надежности диагностических методик. Прием, обычно применяемый в этом случае, – это корреляция. Какова же, собственно, доказательная роль статистики в этом случае?
Критерий надежности прочно вошел в диагностику, однако при его применении нельзя упускать из виду его логической сущности. В частности, представляется целесообразным толковать надежность в трех смыслах, в зависимости от того, что за ряды коррелируются.
1. Как надежность методики, применяемой в качестве измерительного или ранжирующего инструмента.
2. Как стабильность изучаемого психологического или психофизиологического признака или функции.
3. Как константность, то есть относительную независимость получаемых с помощью методики результатов от неучтенных условий опыта и личности экспериментатора.
Цель этого толкования состоит в том, чтобы осветить сущность статистического приема и самого критерия надежности (Гуревич К. М., 1969).
Если придерживаться данной интерпретации, то о надежности измерительного инструмента можно судить, основываясь на следующих соображениях. Допустим, что для измерения длины предметов наблюдателю дана линейка с делениями, и таких делений – двадцать пять. Наблюдатель не знает, каковы эти деления – сантиметры, дюймы или вершки, – он прежде всего заинтересован в том, чтобы сравнивать между собою предметы по их длине и выражать эту длину в каких-то единицах. Заранее известно, что предметы будут различаться по признаку длины; длина одного составит, положим, десять единиц, длина другого – пять единиц, а третьего – двадцать единиц. Если линейка не протарирована, то прежде всего наблюдатель должен утвердиться в уверенности, что все деления линейки одинаковы. В частности, один из простых приемов, который можно применить, чтобы решить этот вопрос, состоит в том, чтобы сопоставить между собой две половины линейки. Если при измерении одного и того же объекта выявится расхождение между делениями одной и другой половины, то это должно означать, что инструмент ненадежен и для измерений неприменим. Все соображения, которые приведены выше, носят не столько узкоматематический, сколько логический характер. При проверке методики (теста) на надежность применяется сопоставление с помощью метода корреляций четных и нечетных заданий по их решаемости на представительной выборке. Этим устанавливается надежность методики как таковой.
Специфические особенности психологии и психофизиологии таковы, что определить надежность самой методики не значит решить все вопросы, связанные с ее применением. Нужно еще установить, насколько стабильны признаки, которые исследователь намерен измерить или ранжировать. Хорошо известно, что многие психологические или психофизиологические признаки в более или менее значительной степени определяются психическими состояниями, а эти последние нередко носят временный характер (Рябинина Э. П., 1976). Чем теснее и непосредственнее связан измеряемый признак с психическими состояниями и чем более подвержен данный субъект постоянным сменам психических состояний, тем в меньшей мере будут стабильны результаты ранжирования или измерения этого признака. Многие психологические признаки нестабильны по самой своей природе: это, например, признаки, которые характеризуются уровнем их развития, положим развитие мышления в каких-то его проявлениях, развитие специальной памяти и т. п. При изучении последних признаков приходится еще считаться с тем, что субъекты могут находиться в не вполне одинаковых условиях и этим может определиться темп их развития.
Как и в предыдущем случае, можно выбрать статистический прием, который адекватно выразил бы искомую стабильность признака. Исследователь не вправе забывать, что роль этого приема чисто служебная: он должен быть применен в качестве приема доказательства. Вопрос о том, что он должен подтвердить и что опровергнуть, ставится исключительно по смыслу самого исследования. Совершенно очевидно, что там, где речь идет о диагнозе лиц, развивающихся в силу каких-то причин разными темпами, там и не следует ждать высоких совпадений между двумя аналогичными пробами, разделенными таким периодом, который достаточен для выявления различий в развитии. Корреляция между первой и второй пробой тогда докажет, что признаки изменились у разных испытуемых в разной степени. Дальнейший анализ, если он нужен для цели исследования, мог бы показать, что испытуемые, находившиеся под влиянием одной группы воздействий, развивались быстрее, чем испытуемые, находившиеся под влиянием другой группы воздействий.
В некоторых видах диагностических исследований вопрос о стабильности измеряемых признаков имеет решающее значение – это исследования, на основании которых строится длительный прогноз. Естественно, что психолог, высказывающий суждения о каком-то признаке, который может на долгие годы предопределить судьбу испытуемых, должен быть вполне уверен в том, что признак этот характеризуется высокой стабильностью. Тридцать-сорок лет тому назад это бесспорное, казалось бы, положение еще не было осознано психологами, занятыми прикладными проблемами; признаки, обосновывающие прогноз, не проверялись на стабильность.
В последние годы проведено много исследований, показывающих, что стабильность ряда функций и процессов, которые должны были бы играть заметную роль в прогнозе, невысока. Прямо и косвенно относящиеся к этому вопросу данные можно найти в обзоре Л. Тайлер (Tyler L., 1972). Укажем, что, повторив психологические испытания через двадцать лет, авторы одного из таких исследований получили коэффициент корреляции между первым и вторым испытанием, равный +0,22. Исследуемые признаки, как видно, не отличаются высокой стабильностью, следовательно, и прогноз, основывающийся на этих признаках, характеризуется незначительной вероятностью. Во всех описанных ситуациях статистика может входить как доказательство большей или меньшей стабильности признака и как таковое она поистине незаменима.
В некоторых видах психологических исследований, имеющих в виду диагностические цели, приобретают особое значение условия опытов, а среди них – личность экспериментатора, его «неформализуемые» особенности, присущая ему манера общения с испытуемыми во время опыта. Очевидно, личность экспериментатора играет более существенную роль при проведении так называемых недетерминированных методик, к числу которых относятся проективные методики. В той или другой степени личность экспериментатора влияет на исход любого психологического эксперимента, но не всегда это влияние имеет существенное значение.
Правила диагностического экспериментирования предусматривают, что опыты и испытания должны всегда проходить в тождественных условиях. Поэтому диагностические методики снабжаются подробными инструкциями, с примерами и правилами их разбора. Но определенное значение сохраняют некоторые неучтенные условия, а среди них и личность экспериментатора, сообщающего инструкции. Волевой нажим, динамичность в сообщении инструкции, наконец, даже дикция и громкость – все это может отразиться на результатах применения методики.
В любом случае, если у исследователя возникает подозрение по поводу влияния личности экспериментатора или других условий на исход процедуры диагностирования, целесообразно проверить методику с помощью критерия «константности». Иначе результаты одного диагностирования будут несопоставимы с результатами другого. Такие проверки проводились, например, в лаборатории дифференциальной психофизиологии Института общей и педагогической психологии АПН СССР (Олыпанникова А. Е., Александрова Н. И., 1969).
В упомянутой работе был использован тот же статистический прием-корреляция. С его помощью было доказано, что при достаточной общепсихологической квалификации экспериментаторов ни их личные особенности, ни другие неучитываемые условия при проведении некоторых психофизиологических диагностических исследований не играют значительной роли.
В практике методических критериев тестологии вопрос о влиянии личности экспериментатора и некоторых условий тестирования специально рассматривается лишь в редких случаях. Однако это не может служить основанием для его недооценки. Применение любого критерия при проверке методик не может носить характер формальности. Приступая к конструированию и затем к использованию своих методик, исследователь ставит перед собою определенные вопросы. Поиск ответа на них и приводит его к статистике.
К сожалению, приходится констатировать, что на формальное отношение к статистике, на недооценку ее собственно доказательного смысла наталкивают некоторые зарубежные руководства по применению тестов. Сплошь и рядом солидные издания, содержащие полезную информацию, выделяют раздел статистики из общего текста и подают его как свод обязательных правил. Возможно, что для малоквалифицированных экспериментаторов такой способ изложения полезен; он может предостеречь их от грубых ошибок, коренящихся в слепой доверчивости по отношению к любым данным, лишь бы они были получены экспериментальным путем. Но собственно логическая сторона статистики остается при этом нераскрытой. Неквалифицированный экспериментатор избегает одних ошибок, но не гарантирован от того, чтобы совершать другие, вытекающие из бездумного применения статистики.
Прежде всего это относится к понятию надежности. Психологу, знакомому с современным состоянием проблемы психологического развития, ясно, что двукратное применение тестов через какой-то промежуток времени (например, через полгода, как рекомендует Л. Кронбах в своем известном руководстве по тестированию) может привести к значительному расхождению результатов первого и второго тестирования (Рябинина Э. П., 1976). Это расхождение, собственно, не означает, что тесты плохи. Оно может быть обусловлено и тем, что за период между двумя применениями тестов развитие детей или взрослых в экспериментальной выборке шло неодинаковым темпом: одни развивались быстрее, другие – медленнее. Темп может зависеть и от специфических возрастно-половых особенностей детей к моменту первого и второго тестирования, от изменения их интеллектуально-учебной мотивации в оба обозначенных момента, от их индивидуальных особенностей и от ряда других, вероятно, уже менее существенных обстоятельств. Конечно, может иметь решающее значение и то, что функции, испытываемые тестом, вообще неустойчивы и по этой причине не могут служить надежным – то есть стабильным – объектом измерений. Все эти достаточно простые соображения, однако, могут быть упущены при слепом следовании формальному требованию, которое гласит, что тест должен обладать определенной надежностью, как бы независимо от того, что и в каких условиях им испытывается.
Само по себе это требование резонно. От чего бы ни зависела низкая надежность, ее нельзя просто игнорировать, нужно понять, от чего она зависит.
С другой стороны, если имеются теоретические основания для того, чтобы считать испытываемое качество устойчивым и стабильным, как это, например, имеет место в отношении основных свойств нервной системы, то ссылки на неравномерность развития испытуемых как на причину низкой надежности должны быть признаны несостоятельными.
Иногда исследователи, проверяющие тест, бездоказательно считают, будто все способы установления надежности теста словно бы идентичны. Разумеется, самым простым по организации является способ проверки теста как измерительного инструмента, что достигается сопоставлением его частей, обычно – путем коррелирования четных и нечетных задач теста. Что такая проверка теста нужна, это не может быть предметом спора. Но она никак не заменяет других способов проверки, в частности проверки стабильности измеряемой функции, а в некоторых случаях, где это необходимо, и проверки теста на константность – путем сопоставления результатов, полученных в более или менее одинаковых условиях и на одной и той же экспериментальной выборке двумя экспериментаторами. Все это говорит о том, что статистика не может достичь поставленных перед нею целей, если она будет восприниматься исследователями как совокупность технических приемов; статистика полезна, если она служит в качестве аппарата доказательств психологической диагностики.
Один из укоренившихся приемов проверки диагностических методик – проверка их валидности. В самом деле, если тест испытывает какое-то психическое качество и если это качество, согласно гипотетическим построениям психолога, имеет существенное значение в каком-то виде учебной или трудовой деятельности, то тем самым как бы постулируется, что между уровнем развития или степенью представленности данного психического качества и успешностью выполнения учебной и трудовой деятельности должна существовать определенная связь. Чаще всего предполагается, что чем выше представленность психического качества, тем должна быть выше успешность.
Это рассуждение и было, по-видимому, причиной того, что для установления валидности постоянно производили корреляции между успешностью в тесте, диагностирующем данное психическое качество, и теми видами успешности, которые так или иначе устанавливались в изучении психологом учебной и трудовой деятельности.
Следует заметить, что вопрос о валидности всегда представлялся одним из наименее ясных и наименее разработанных (Wallace S. R., 1965). Видный американский психолог Е. Гизелли (Ghiselli Е., 1949), неоднократно изучавший состояние валидности применительно к исследованиям в области профессионального труда, показал, что коэффициенты корреляции, получаемые при реализации сопоставлений «тест – профессиональная успешность», обычно невысоки.
Были случаи, когда сопоставление давало отрицательный результат, то есть получалась обратная линейная зависимость: чем успешнее выполняется тест, тем ниже была профессиональная успешность. Получались и высокие совпадения. Но картина в целом всегда оказывалась весьма запутанной. По Гизелли выходит, что коэффициент порядка 0,40 – это даже «законная» характеристика возможной валидности.
Дело, однако, не в том, может или не может удовлетворить психолога коэффициент валидности такого порядка. Дело в другом: каков логический смысл этого коэффициента, о чем он говорит психологу, какова сама процедура извлечения информации о практической действенности теста или совокупности тестов. При безумной игре коэффициентами эти реальные вопросы остаются в тени.
Психолог, получивший коэффициент валидности порядка 0,40, может объяснить этот высокий коэффициент тем, что тест или тесты, которые, как он убежден, действительно раскрывают важные для учебной и трудовой деятельности стороны психики, не затрагивают некоторых других ее сторон, также имеющих большое значение. Так, интеллектуальный тест не касается сферы мотивации. Вследствие этого нужное психическое качество может быть представлено в достаточной степени и оно могло бы обеспечить успешность, но сам испытуемый неактивен, деятельность, осуществляемая им, протекает на невысоком уровне мотивации, поэтому и объективные результаты ее ниже возможных. С другой стороны, можно построить такое же рассуждение, но с обратным знаком: качество представлено в едва-едва удовлетворительной степени, но заинтересованность велика; следствие – результат деятельности выше ожидавшегося. Итак, испытуемые из одного – психологического – ряда несколько смещаются тут и там, когда они переходят в другой – учебно-трудовой – ряд, где их оценивают по их объективным достижениям. Это смещение и приводит к упомянутому коэффициенту.
Нередко и другие соображения приводятся исследователями:
• недостаточно объективная характеристика успешности со стороны тех лиц, которые ведают учебной или трудовой оценкой – имеются в виду учителя, инструктора, руководство цехов и пр.;
• влияние на оценку таких факторов, которые не могут в полной мере учитываться психологом, исследующим психические качества (неправильная организация труда, мешающая выявить подлинные возможности испытуемого, неудовлетворительное оборудование, на котором испытуемый вынужден учиться или работать, и т. д.).
Видимо, каждому непредубежденному человеку ясно, что коэффициент более высокого порядка при таких условиях и в самом деле не может быть получен, а если его получают, то это можно объяснить каким-то маловероятным стечением обстоятельств, а отнюдь не высоким качеством теста. Складывается впечатление, что психолог, получивший коэффициент другого порядка (положим, на уровне 0,70), имеет больше причин для беспокойства, чем тот, кто получил традиционный 0,40, а то и меньше. В общем, для получения низкой связи между результатами теста или тестов и оценками успешности причин более чем достаточно.
Все это представляется вполне резонным. Однако коэффициент порядка 0,40 все-таки невысок, неясно, как же проверить действенность теста, как найти для этого разумный критерий.
Зарубежные психологи разработали специальные номограммы, наглядно показывающие, что если психолог пользуется для профессионального отбора тестом, который имеет коэффициент валидности даже порядка 0,10, то все-таки он приносит известную пользу предприятию, лишь бы коэффициент валидности не был ни нулевым, ни отрицательным. Не вдаваясь в собственно математическую сторону обоснований полезности тестов при низких положительных коэффициентах валидности, обратимся к их логической стороне. Ход рассуждения тут таков: если никакого отбора нет или, что то же самое, коэффициент валидности тестов равен нулю, то предприятие имеет равные шансы получить и годного, и непригодного работника. Вероятность успешности принятых работников составляет 0,5 (от единицы). Но даже незначительный коэффициент валидности увеличивает вероятность успешной работы вновь принятых, пусть и на небольшую долю. Чем выше коэффициент валидности, тем выше ожидается вероятность успешной деятельности лиц, принятых по их успешности в данном тесте. Такова логическая основа применения тестов даже с низкой валидностью (что она обязательно должна быть положительной, это явствует из тех же рассуждений). Изложенные здесь соображения, однако, ни в малейшей мере не проясняют другой стороны дела: почему психолог так безучастен по отношению к самой проверке теста на валидность?
Между тем если, приступая к проверке валидности, не довольствоваться сложившимися традиционными требованиями, то дело не покажется столь безнадежным. Много свежих идей относительно проверки валидности содержится в выдвинутом не так давно понятии «релевантного критерия», о чем нам уже приходилось писать (Гуревич К. М., 1970). При сопоставлении результатов тестирования с успешностью психологу рекомендуется пользоваться не оценкой руководителя, так как она, как это ясно всем, страдает множеством недочетов (избавиться от которых можно, лишь, вероятно, имея в качестве руководителя психолога-единомышленника), а реальным производственным показателем, на выявление которого направлен тест, скоростью выполнения определенного приема (приемов), точностью сенсорного различения, объективно оцениваемыми качествами принятого решения и т. п. Смысл применения релевантного критерия в том, чтобы найти в деятельности такие элементы или структуры, которые поддаются однозначной психологической интерпретации, так, чтобы эта интерпретация, выраженная в количественных и качественных характеристиках, могла выступить в виде оценочного ряда для сопоставлений.
Допустим, что такой релевантный критерий найден. Однако он еще не решает всех вопросов. В частности, остается вопрос мотивации – ведь хорошо или плохо работает не совокупность психических качеств, а человек, личность, заинтересованная в успехе своей деятельности. Решить такую задачу трудно, но нельзя от нее на этом основании отказываться. Так, можно при проверке валидности использовать специально отобранную группу высокомотивированных работников. Психолог, проверяющий валидность на неотобранной группе, заведомо затрудняет вывод логических заключений, к которым придет после своих сопоставлений. А задача его в том, чтобы их упростить.
Большие сомнения вызывает проверка «по одновременности» валидности тестов, предназначенных для отбора. Этот способ проверки состоит в том, что тестированию подвергается группа лиц уже работающих, уже имеющих опыт и достижения в изучаемой психологом деятельности. Неясностей в таком способе проверки более чем достаточно. Прежде всего, неизвестно, какими были эти ныне успешно выполняющие свою работу лица, когда они лишь начинали свою деятельность. Если речь идет об их психических качествах, таких как внимание, память, специальная интеллектуально-мыслительная деятельность, то ни один серьезный психолог не согласится с тем, что перечисленные и подобные им психические качества остались за время их деятельности неизменными. Бесспорно, что в деятельности происходил процесс развития, причем развития специфического, приноровленного к деятельности. Признав это, психолог оказывается перед новой задачей: а какой, собственно, уровень нужного качества необходим и достаточен, чтобы вступить в деятельность? Валидность, полученная на группе опытных людей высокого профессионального уровня, никак не дает оснований для решения вопроса о валидности для группы с полным отсутствием профессионального опыта. Группа профессионалов не репрезентативна для того, чтобы полученные на ней данные перенести на группу начинающих.
Высказанное выше сомнение не единственное. Допустим, что развитие высококвалифицированной группы признано. Однако столь же обязательно признать это развитие не только и даже не столько развитием «вообще», сколько нужно признать его развитием специальным. Актер умеет запоминать текст роли. Но это не значит, что он столь же успешно запомнит, положим, неперсонифицированный и эмоционально нейтральный текст научного сообщения. Память актера, как и любого другого профессионала, развивается в том направлении, которое дано его деятельностью. Поэтому испытание квалифицированных специалистов такими тестами, которые адресованы к функции неспециализированной, например, испытание у актеров памяти «вообще», может дать неожиданные результаты – может получиться так, что память актера, ежедневно запоминающего и воспроизводящего целые страницы текста, окажется хуже, чем память какого-либо другого специалиста. Валидность, проверяемая на выборке, составленной из профессионалов, окажется очень низкой или даже нулевой, хотя тест «вообще» исследует профессионально важную функцию. Допустим и другой путь – приближения психологического теста по его содержанию (по характеру заданий) к специфике профессиональных заданий; не лучше ли тогда перейти к рационально подготовленному тесту учета профессиональной успешности? Но применение такого рода теста означает, что психолог выявляет не что иное, как степень профессиональной подготовленности. Впрочем, иногда это и требуется.
Бывает, что психолог в погоне за приемлемым показателем валидности пробует и перебирает различные критерии и различные статистические приемы, окончательно упуская из виду логико-психологический анализ проверочной процедуры и забывая о доказательности полученных выводов. Этим, вероятно, отчасти вызывается застой в важнейшей области практической проверки значения психологических испытаний.
Между тем последовательное применение релевантных критериев на группах специалистов с высокой мотивацией и с различным стажем профессиональной деятельности могли бы привести к объективным оценкам валидности тестов, исследующих совокупность психических и психофизиологических признаков. На это требуются время и силы, но это один из способов разорвать порочный круг традиционного подхода к валидности.
В связи с изложенным необходимо сделать одно важное замечание. Все, что было сказано выше, относится к валидности по собственно психологическим диагностическим методикам. В области методик дифференциальной психофизиологии дело обстоит иначе, что обусловлено тем, что признаки, устанавливаемые методиками дифференциальной психофизиологии, отличаются стабильностью, устойчивостью. В дифференциально-психофизиологической литературе вопрос о валидности применительно к методикам этого рода нашел свое освещение (Гуревич К. М., 1970). Отметим, что корреляция, раскрывающая линейные связи, не может при проверке дифференциальных психофизиологических методик служить адекватным приемом проверки валидности. Может быть, неполная адекватность корреляции сказывается и при установлении валидности собственно психологических методик, но этот вопрос заслуживает особого рассмотрения. Дело тут опять-таки не в покорном использовании кем-то предписанной процедуры, а в творческом, разумном и обоснованном подходе к выбору статистических приемов. Сам по себе ни один статистический прием не может быть назван ни хорошим, ни плохим, как ни один логический прием также не может быть назван ни хорошим, ни плохим. Все дело в их правильном использовании, в том, насколько они правомерны в данных конкретных исследованиях, насколько отвечают поставленной задаче.
Выбор приемов, которые использовались психологами при установлении надежности и валидности, носит отпечаток определенного психологического мировоззрения, весьма далекого от современного.
Психологическая позиция, выдвинувшая эти приемы, – это позиция метафизического понимания психических процессов, функций и качеств: все эти психические реальности как бы признаются неизменными. Встанем на время на эту позицию. Тогда нам станет ясно, что для проверки надежности нет лучшего приема, чем корреляции повторного тестирования через какой-то промежуток времени. С этой же позиции можно утверждать, что лица, которые сформировались как профессионалы, остались по своим психическим качествам такими же, какими они были, когда они лишь приступали к своей профессиональной деятельности. Возможно, что этот метафизический подход и затормозил творческое использование статистических приемов как аппарата доказательств современной психологической диагностики.
Одно из наиболее ярких выражений определенных теоретических воззрений в психологической диагностике связано с проблемой так называемой нормы.
В любом диагностическом исследовании психолог нуждается в том, чтобы как-то классифицировать испытуемых, входящих в экспериментальную выборку. Для этой цели используются различные статистические приемы, техническая сторона которых не может нас в этом сообщении занимать. Смысл этих приемов в том, чтобы в делении на группы не было субъективного произвола. Чтобы избежать этого, можно, например, использовать в качестве критерия особую статистическую величину – так называемое квадратическое отклонение, величину, которую в западной литературе именуют «стандартным отклонением». В принципе, использование этой величины ничего противозаконного в себе не содержит, квадратическое отклонение при нормальном распределении столь же удобно, как и перцентиляжные величины, предполагающие при других видах распределения деления ряда по его процентным соотношениям.
Если говорить о чисто статистической стороне дела, то она в самых общих чертах состоит в том, что среднее квадратическое отклонение есть величина, относящаяся к определенному виду распределения, именно к нормальному распределению, с кривой, напоминающей колокол. Нам в данном случае важно заметить одно весьма существенное для дальнейших рассуждений обстоятельство: нормальное распределение характерно для большинства биологических явлений. Возьмем, например, в качестве предмета изучения рост каких-нибудь особей – мышей, жуков, колосьев определенного вида, – если изучаемая выборка будет достаточно велика и представительна, то в каждом случае мы с большой вероятностью можем полагать, что получим нормальное распределение: очень большие и малые экземпляры будут представлены в небольших количествах, а экземпляры среднего – для данного вида – роста будут наблюдаться в относительно большом количестве. Чтобы графически отразить полученное распределение, нужно по оси абсцисс отложить единицы измерения, а по оси ординат – число случаев, приходящихся на каждую единицу. Это будет нормальное распределение, если график имеет форму колокола.
Ранее мы уже отмечали, что широкое применение психодиагностических методик было ознаменовано тем, что их стали также «подгонять» под нормальное распределение. Слово «подгонять» тут поставлено не случайно. Тесты именно подгоняли, чтобы получить нормальное распределение. Начал применять этот способ «совершенствования» тестов Термен из Стенфордского университета в США, когда он взялся за переработку шкалы Бине. Каждый хоть немного знакомый со статистикой и теорией вероятности психолог знает, что нормальное распределение сильно упрощает обработку и всю последующую технику использования результатов тестирования.
В частности, одно из преимуществ нормального распределения состоит в том, что открывает возможность использования «стандартного отклонения», которое дает определенные основания для разбиения выборки на группы. Известно, что при нормальном распределении в пределах х ± Узо должно находиться 50 % всех случаев, имеющихся в данной совокупности или выборке (х и, соответственно средняя арифметическая и стандартное отклонение).
Норма для измерений признака будет находиться в этих границах. Это означает, другими словами, что в этих границах заключена та часть совокупности или выборки, которую можно считать наиболее типичной, характерной для нее. Когда распределение имеет форму колокола, оно симметрично, поэтому 25 % случаев окажутся за пределами нормы, превосходя ее, а 25 % также за пределами нормы, но будучи ниже ее, не достигая ее. При необходимости, пользуясь тем же стандартным отклонением, можно прибегнуть и к более дробному делению на группы, можно устанавливать границы групп, отделяя в ту и другую сторону от среднего арифметического по 0,5, и т. п.
Вернемся к делению совокупности или выборки на три группы. Исследователь, получивший по интересующему его признаку нормальное распределение, заранее постулирует, что в границы нормы войдет лишь часть взятой им выборки. Как должны толковаться по отношению к этой норме обе оставшиеся группы?
Такое толкование обычно приводит к смешению понятий собственно статистических и бытовых, неправомерно вошедших в психологию. Характеристики «выше нормы» и «ниже нормы», когда их относят к психологическим признакам, в особенности к результатам интеллектуальных тестов, приобретают общепонятный, но при этом лишенный научного содержания смысл. Так, можно сделать вывод – и он действительно делается, – что по признакам, которые измеряются интеллектуальными тестами, 25 % всего человечества находятся «ниже нормы»! И иногда в группу «ниже нормы» включают как людей аномальных, так и здоровых, но якобы недостаточно умных.
Понятие нормального распределения вошло в психологическую диагностику вместе с тестами Стэнфорд – Бине. Вообще говоря, вряд ли можно возражать против того, чтобы распределение результатов тестирования было «подогнано» каким-нибудь способом, например специальным подбором задач к нормальному распределению. Но после того, как это сделано, кривые распределения следует рассматривать только со стороны приобретенных ими формальных технических преимуществ – их удобно разбивать на группы, они пригодны для корректного применения к ним некоторых эффективных формул для установления значимых связей и различий (по Пирсону – Браве, по Стьюденту и т. п.). Во многих случаях преимущества, получаемые при нормальном распределении, очевидны и бесспорны. Но, пользуясь ими, нельзя забывать, что сама-то нормальность распределения создана, так сказать, руками исследователя.
В психологической диагностике, поскольку она занимается измерениями явлений психики, зависящих от социального опыта испытуемых, нормальное распределение результатов тестирования не может быть правилом, а может быть лишь исключением. Если уж оно получилось, то причины его нужно специально выяснять, его нельзя толковать как проявление «закона природы», который не нуждается в объяснении, а сам все объясняет. В явлениях, детерминируемых законами социальной жизни, не имеет решающего значения игра тех сил, от которых зависит нормальное распределение биологических явлений.
Поэтому и интерпретация группировок, выделенных при распределении, должна быть весьма условной. И характеристики групп – «норма», «ниже нормы», «выше нормы» – имеют не бытовое, а формальное и условное значение.
Общество состоит из классов, социальных групп. Законы развития людей, входящих в эти группы, – это не имманентные законы самой психики, а законы социальные. Кривую нормального распределения можно получить, если брать в должной пропорции представителей разных по образованию социальных групп.
Весьма сомнительна подобная операция с точки зрения статистики. Ведь это представители групп, имеющих различный опыт, различное образование – оно нередко оказывается одним из решающих факторов успешности в тестовых психологических испытаниях, – как же можно их объединять в одну совокупность? Статистика говорит, что нельзя объединить в совокупность группы, которые имеют существенные различия между собою по измеряемому признаку.
Психологу не нужно доказывать, что люди, находящиеся в неодинаково благоприятных для развития условиях, вследствие этого и в самом деле развиваются неодинаково. Применяя же к ним – притом неправомерно – бытовое понятие нормы, рассуждение нужно строить наоборот: эти люди неодинаковы по развитию, и поэтому они находятся в неодинаково благоприятных условиях для развития.
Автор известной шкалы Д. Векслер пишет, что он старался подобрать для стандартизации своих тестов такую выборку, которая отражает те же пропорции различных групп населения, которые представлены в населении США: «Выборка, подобранная для стандартизации, должна представлять столь похоже, как возможно, ту популяцию, для которой предназначены тесты» (Wechsler D., 1955).
Подобрав такую выборку, Д. Векслер получил распределение, близкое к нормальному. Вот как поступил автор. Он выделил и соответственно представил в экспериментальной выборке, предназначенной для стандартизации тестов, пять образовательных групп: до 8 лет обучения; от 9 до 11 лет; 12 лет; от 13 до 15 лет и 16 и выше лет обучения. Образовательный уровень в США обычно прямо связан социально-экономическим статусом, о чем автор не говорит.
Среди испытуемых, подобранных для стандартизации шкалы, для мужчин в возрасте 20–24 года было:
• прошедших до 8 лет обучения – 25 %;
• от 9 до 11 лет обучения – 23 %;
• 12 лет обучения —30 %;
• от 13 до 15 лет обучения —16 %;
• 16 и более лет обучения – 6 %.
Эти пропорции соответствуют общеамериканским. Они дают, если разбить выборку на те же группы, которые были нами ранее использованы в рассмотренном примере, такое разбиение:
• обучение до 8 лет – 25 %;
• от 9 до 12 лет – 53 %;
• 13 и более – 22 %.
Автор шкалы получил распределение, близкое к нормальному. Но это достигнуто тем, что люди, относящиеся к различным социальным и образовательным группам, были неправомерно объединены в одну выборку и по их данным, что столь же неправомерно, выведена общая норма.
Речь не идет о том, что при обработке данных, полученных с помощью психологических методик, нельзя пользоваться «стандартным отклонением», нельзя разбивать испытуемых на группы и т. п. Речь идет о том, что при проведении всех таких статистических операций нельзя забывать и о содержательной стороне психологической диагностики.
Об общечеловеческих психологических стандартах правомерно говорить только при сравнении людей физически здоровых с людьми аномальными. Когда понятие нормы, полученное путем выделения некоторой средней представительной группы, начинает применяться в отношении социально неоднородных групп здоровых психически людей, то с таким решением нельзя согласиться. Совершенно ясно, что группы людей с различным социально-психологическим опытом имеют свои особенные характеристики по психологическим признакам и ставить их по результатам тестирования в один и тот же иерархический ряд недопустимо.
Проблема нормы обсуждается и в тестологической литературе. Ли Кронбах полагает, что от этого понятия в ряде случаев вообще следует отказаться. Он считает, что важно дать характеристику того, что умеет ребенок, достигший определенных результатов по тесту, а не ссылаться на его место в распределении относительно нормы. Видимо, суть дела должна быть выражена так: результаты по тесту следует сопоставлять с возможностями выполнения некоторых конкретных учебных и профессиональных задач, чтобы установить, какие из них посильны для лиц с теми или другими баллами по тесту. Как считает Л. Кронбах, полученный балл не должен рассматриваться и как предел достижений данного лица, то есть этот автор придает тесту диагностическое, а не прогностическое значение (Cronbach L., 1972).
Все отчетливее вырисовывается некоторый общий подход к оценкам самих тестов как инструмента психологической диагностики и лиц, прошедших тестирование, не по имманентным критериям, а по результатам сопоставлений со значимыми критериями. Можно полагать, что для этого понадобится применение – для большего числа случаев – новых статистических приемов, вероятно – уравнений регрессии. Использование их поможет статистике выступить в своей роли аппарата доказательства психологической диагностики.