МИФ 15. Тесты на интеллект пристрастны к определенным группам людей
Немногие иконы популярной психологии являются предметом такого огромного количества заблуждений, как тесты на выявление коэффициента умственного развития (показателя интеллекта; Gottfredson, 1997). Поэтому прежде, чем рассмотреть, пожалуй, самое главное заблуждение, приведем немного истории.
Больше века назад Чарльз Спирман показал, что результаты измерений множества разнообразных познавательных способностей имеют свойство позитивно коррелироваться. В своей классической работе он предложил обозначать общность, лежащую в основе этих способностей, фактором «общего уровня интеллекта» (Spearman, 1904). Хотя Спирман признавал и существование более специфичных способностей, огромное количество данных показывает, что умственные способности подкреплены именно этим фактором (Carroll, 1993). Другие названия, используемые для обозначения фактора общего интеллекта, — общая умственная способность, показатель интеллекта и в честь его первого сторонника — «G» Спирмана. Большинство тестов на выявление показателя интеллекта типа широко используемой Шкалы умственных способностей по Векслеру (Wechsler, 1997) в ее последней, четвертой версии, содержат многочисленные подтесты, вроде словарного и арифметического. Позитивные ассоциации среди подтестов этих тестов совместимы с «G» Спирмана, что поддерживает использование единого подсчета показателей интеллекта для многих важных целей.
Не воспринимая интеллект как произвольную конструкцию, которая полностью зависит от того, как мы хотим измерять ее, большинство экспертов определяют интеллект одинаково: это очень общая умственная способность, которая, помимо прочего, подразумевает способность рассуждать, планировать, решать проблемы, мыслить абстрактно, понимать сложные идеи, учиться быстро и учиться на своем опыте. Это не просто книжные знания, узкий академический навык или способность выполнять тесты. Скорее он отражает более широкую и более глубокую способность к пониманию нашего окружения — умение «въезжать», «понимать смысл» вещей или «выяснять», что нужно делать (Gottfredson, 1997).
Некоторые критики обвинили тесты на интеллект в том, что они предсказывают результаты только других аналогичных тестов. В оживленной интернет-дискуссии среди преподавателей относительно тестов на интеллект один участник сказал, что «показатель интеллекта — это откровенно слабый предсказатель чего-нибудь, кроме показателя интеллекта» (; 19 сентября 2008). Однако данные говорят об обратном. Пусть они далеко и не идеальные, но тесты на выявление показателя интеллекта дают результаты, которые являются наиболее справедливыми и рентабельными предсказателями академической успеваемости и профессиональной пригодности почти в каждой изучаемой профессии — рабочего, официанта, секретаря, полицейского, электрика и т.д. (Neisser et al., 1996; Sackett, Schmitt, Ellingson & Kabin, 2001; Schmidt & Hunter, 1998). Дин Кит Симонтон даже показал, что предполагаемые показатели интеллекта американских президентов — это хорошие предсказатели их успеха у власти, и об этом говорят историки. Из-за их полезности лица, принимающие решения, часто используют тесты на интеллект при принятии «ключевых» (важных с точки зрения последствии) решении, в том числе — при приеме на работу.
Когда в 1960-х годах набрало силу движение за гражданские права, многие исследователи начали изучать различия в показателях интеллекта у разных расовых и этнических групп. Стало популярным объяснять различия среди групп пристрастностью теста: большинство исследователей предполагали, что подобные тесты отдавали предпочтение белым мужчинам (Anastasi & Urbina, 1997). Обычное использование тестов на интеллект и вес, придаваемый результатам этого теста, означают, что, если эти тесты пристрастны к женщинам или представителям нацменьшинств, результатом этого может стать широкомасштабная и несправедливая дискриминация. Поэтому потенциальная пристрастность таких тестов — это далеко не просто вопрос педантизма или политкорректности.
Что такое пристрастие в тесте и как его распознать? Одно широко распространенное заблуждение состоит в том, что, если две группы показывают разные результаты, значит, тест пристрастен. Мы можем найти это неправильное представление в целом ряде популярных работ. Это обвинение особенно часто повторяется критиками подобного тестирования и других стандартизированных тестов. В начале 1980-х защитник прав потребителей (а позже неоднократно выдвигавшийся кандидат в президенты) Ральф Нейдер и его коллеги утверждали, что экзамен на выявление академических способностей (ЭВАС) должен быть запрещен, потому что более бедные учащиеся и многие учащиеся из групп нацменьшинств обычно показывают более слабые результаты по сравнению с другими учащимися (Kaplan, 1982). В своей статье в журнале «Nation» Джей Рознер утверждал: последовательные различия при выполнении экзамена между учениками, представляющими большинство и меньшинство, демонстрируют, что стандартизированные тесты пристрастны.
Многие судьи также постановили, что различия в экзаменационных отметках двух групп, нацбольшинства и нацменьшинства, предполагают наличие пристрастности. В 1980 году в важном судебном решении по делу Лэрри П. против Райлса 9-й Окружной апелляционный суд Калифорнии постановил, что беспристрастный тест по определению означает «ту же систему оценок, если он проводится для разных групп людей», и установил строгие границы использования проверок умственных способностей для того, чтобы классифицировать детей как умственно отсталых в слабых формах для образовательных целей (Bersoff, 1981). В другом судебном деле страховая компания «Golden Rule» предъявила иск департаменту выдачи лицензий штата и издателю, опубликовавшему тест, из-за того что во время теста на получение сертификата чернокожие дали меньше правильных ответов, чем белые (Golden Rule Insurance Company et al. v. Washburn et al., 1984). Многие адвокаты позже подали судебные иски на том основании, что различия в экзаменационных отметках в группах доказывают — этот тест не был беспристрастным.
Но в этом популярном представлении есть серьезная неувязка: группы могут фактически отличаться по оцениваемой характеристике (Anastasi & Urbina, 1997). Почти наверняка отчеты врача показали бы, что средний вес взрослых пациентов мужского пола, больше чем вес взрослых пациенток. Этот факт не предполагает, что шкала, измеряющая вес пациентов, предвзята, потому что мужчины обычно бывают тяжелее женщин. Различия между группами необязательно демонстрируют пристрастность, хотя они могут предположить ее наличие в некоторых случаях. По крайней мере, частично это недоразумение может проистекать из неправильного использования эвристической репрезентативности (см. Введение). На протяжении большой части американской истории многие результаты, которые показывали большие групповые различия, типа различий в школьной успеваемости у разных рас или различия в статусе работы между мужчинами и женщинами, объяснялись в значительной степени социальной пристрастностью (предубеждением). Поэтому сегодня, когда люди видят, что тест приводит к различным результатам в группе, они могут автоматически приравнять эти различия к пристрастности.
Как мы можем узнать, вызваны ли различия в экзаменационных отметках группы пристрастностью теста? Нужно сосредоточиться на законности предсказаний теста. Если мы используем тест на интеллект, чтобы предсказать работоспособность в школе или на рабочем месте, мы должны собрать данные по множеству показателей интеллекта претендентов и их работоспособности. Если различия в оценках интеллекта в группе сопровождаются примерно сопоставимыми различиями в работоспособности, такой тест беспристрастен. Беспристрастный тест не недооценивает, не переоценивает показатели членов любой группы. Напротив, если группы получают разные результаты в тесте по выявлению показателей интеллекта, но имеют одинаковую работоспособность, мы можем заключить, что этот тест пристрастен. Одним последствием этого может быть несправедливая дискриминация в пользу группы, работоспособность которой предсказана точно, в ущерб группе, работоспособность которой предсказана приблизительно.
К счастью, многие исследователи проанализировали возможность того, что показатели теста на интеллект пристрастны к женщинам и нацменьшинствам. Две группы, собранные Национальной академией наук (Hartigan & Wigdor, 1989; Wigdor & Garner, 1982), и Целевая группа американской психологической ассоциации (Neisser et al., 1996), в состав которых входили люди, представляющие разнообразный диапазон экспертных мнений и оценок, сделали тот же вывод: нет никаких доказательств того, что тесты на интеллект или другие стандартизированные тесты типа экзамена на определение академических способностей (ЭОАС) принижают результаты женщин или нацменьшинств. Сегодня большинство экспертов соглашаются с тем, что вопрос о пристрастности теста на интеллект решен окончательно, как может быть решен любой научный спор (Gottfredson, 1997, 2009; Jensen, 1980; Sackett et al., 2001; Sackett, Borneman & Connelly, 2008).
Крайне важно понять, тем не менее, что отсутствие пристрастности при проведении теста ничего не говорит о причинах различий в групповых показателях интеллекта. Эти различия можно объяснить (в значительной степени или полностью) влиянием среды, например, невыгодным социальным положением или предубеждением. В той степени, в которой мы возлагаем вину за различия показателей интеллекта в группе на пристрастность в проведении теста, мы можем и проигнорировать подлинные причины этих различий, некоторые из которых мы можем устранить с помощью социальных и образовательных программ.
Несмотря на данные исследований, некоторые психологи заявляют о том, что в утверждении о пристрастности теста на интеллект есть зерно истины. И вот почему. Исследователи могут оценить потенциальную пристрастность теста не только на уровне целого теста, но и на уровне пунктов, составляющих этот тест. Так же, как пристрастный тест даст лишь приблизительное представление о способности одной группы по отношению к другой, о том же скажет и пункт, входящий в этот тест. Психологи называют это явление функционированием пункта разницы (различия), или ФПР (Hunter & Schmidt, 2000).
Для любой пары групп (таких как женщины — мужчины, или афроамериканцы — белые) мы можем исследовать каждый пункт теста на наличие ФПР. Если члены двух групп показывают одинаковые результаты в остальной части теста, но разные по какому-то одному пункту, это доказывает пристрастность вопросов, представленных в этом пункте. Исследователи обычно обнаруживают, что многие пункты теста на интеллект отвечают критериям ФПР. Рой Фридл и Ирэн Костин нашли ФПР для пунктов на выявление вербальной аналогии в ЭОАС и выпускных экзаменах, включая аналогии с такими легкими корнями, как в словах «саnое (байдарка): rapids (водоскаты)», и такими трудными, как «sycophant (льстец): flattery (лесть)». На первый взгляд обнаружение ФПР для многих пунктов теста подвергает сомнению вердикт относительно беспристрастности теста в целом. В конце концов: как могут отдельные пункты демонстрировать ФПР без наличия пристрастности в результатах всего теста?
Оказывается, что многие или большинство случаев ФПР малозначительны (Sackett at al., 2001). Даже среди позиций, которые показывают ФПР, направление пристрастности непостоянно. Одни позиции предпочтительны для одной группы, а другие для другой, поэтому последствия обычно аннулируются, когда позиции объединяются в общий итог (Sackett et al., 2001). Таким образом, ФПР не обязательно приводит к необъективности теста (Freedle & Kostin, 1997).
Как мы обнаружили в этой книге, пропасть между исследованиями и общепринятым мнением часто весьма велика, и это особенно верно в сфере интеллекта (Phelps, 2009). Тесты на интеллект законно предсказывают результаты во многих важных областях повседневной жизни без каких бы то ни было доказательств пристрастности в отношении женщин или нацменьшинств. Настоящая пристрастность возникает тогда, когда мы начинаем винить в различиях групповых результатов «посредников», то есть сами тесты на интеллект, и пренебрегаем потенциальными внешними объяснениями типа неблагоприятных культурных факторов.