Определение причины
Верите ли вы, что дети, которыми пренебрегают родители, становятся малолетними преступниками? Помогает ли бег трусцой от депрессии?
Способствует ли диета с низким содержанием жиров увеличению продолжительности жизни? Правда ли, что одежда делает человека?
Дают ли глубокие духовные убеждения душевное спокойствие?
Способствуют ли занятия по критическому мышлению совершенствованию мышления студентов вне занятий?
Все эти вопросы касаются причинной связи, при которой считается, что одна переменная (например, пренебрежение родительскими обязанностями) является причиной другой переменной (например, правонарушений). Какая информация необходима для того, чтобы правильно установить причинные связи?
Изоляция и контроль переменных
Давайте остановимся и задумаемся над тем, каким способом можно воспользоваться, чтобы решить, приводит ли пренебрежение родительскими обязанностями к тому, что в подростковом возрасте дети становятся преступниками? Можно попробовать провести долговременное исследование, разделив детей на группы — одним родителям сказать, чтобы они удовлетворяли все потребности детей, другим — чтобы они пренебрегали некоторыми потребностями, а третьим — чтобы они полностью пренебрегали своими детьми. Вы можете потребовать, чтобы все участники эксперимента оставались в своих группах, заботясь о детях или пренебрегая ими, до тех пор, пока дети не достигнут подросткового возраста, когда вы подсчитаете число детей из каждой группы, которые стали преступниками — не забыв, конечно, дать операционное определение термину «преступник». Это было бы хорошим, хотя совершенно нереальным способом решения вопроса о том, приводит ли пренебрежение к правонарушениям. Этот способ хорош тем, что он позволяет вам контролировать степень пренебрежения каждым ребенком и изолировать причину преступлений, поскольку степень пренебрежения будет единственным систематическим различием между испытуемыми из разных групп. Этот способ нереален до абсурда, поскольку очень немногие люди согласятся на вашу просьбу пренебрегать детьми. Кроме того, было бы неэтично просить людей участвовать в экспериментах, последствия которых потенциально вредны.
В условиях некоторых экспериментов имеется возможность изолировать и контролировать интересующие нас переменные. Если вы хотите узнать, можно ли с помощью системы оценок добиться того, чтобы студенты колледжа стали учиться старательнее и знали больше, вы можете случайным образом распределить их по группам, которые будут оцениваться по-разному. Половина студентов будет получать только «зачет» или «незачет» (без обычных оценок), в то время как остальные будут получать традиционные численные оценки (2, 3, 4 или 5). В конце семестра все студенты будут сдавать одинаковый экзамен. Если средний балл по результатам экзамена у студентов, получавших численные оценки, будет статистически значительно выше, чем у студентов, получавших «зачет» или «незачет», можно сделать вывод, что система численных оценок действительно приводит к повышению успеваемости. (Вопрос о том, какие различия можно считать значительными, будет обсуждаться в главе 7.)
Понимаете ли вы, почему так важно распределить студентов по группам с различными системами оценок именно случайным образом, вместо того чтобы позволить им самим выбрать систему, которую они хотят? Не исключено, что студенты, которые выберут систему «зачет-незачет», имеют более слабую мотивацию к учебе или менее высокий уровень интеллекта, чем студенты, которые предпочитают получать численные оценки, или наоборот. Если бы студенты могли сами выбирать систему оценок, мы не знали бы, за счет чего появились обнаруженные нами различия в успеваемости — за счет различных способов оценки знаний или за счет различий в мотивации, уровне интеллекта или какой-либо другой переменной, в результате действия которой студенты выбирали систему оценок.
Давайте вернемся к вопросу о том, приводит ли пренебрежение детьми к правонарушениям. Как вам решить этот вопрос при имеющихся ограничениях (вы не можете просить родителей пренебрегать своими детьми)? Можно найти группу родителей и расспросить каждого из них, сколько внимания и заботы они уделяли своим детям. Предположим, что вы обнаружили, что, в целом, чем сильнее пренебрегают ребенком, тем больше шансов, что он станет преступником. Поскольку вы потеряли контроль над вашими переменными, не разделив родителей на группы заботящихся и пренебрегающих, то на основе одного этого эксперимента невозможно заключить, что пренебрежение детьми приводит к правонарушениям. Возможно, родители, которые пренебрегают своими детьми, отличаются от заботливых родителей и по другим показателям. Родители, склонные к пренебрежению родительскими обязанностями, могут также поощрять употребление наркотиков или вести такой образ жизни, который способствует формированию из детей малолетних правонарушителей. Поскольку родителей нельзя разделить на группы, то для получения заключения о существовании причинной связи придется провести несколько различных исследований. Я снова повторяю уже не раз проводившуюся в этой книге мысль: тот факт, что две переменные имеют место одновременно (пренебрежение и правонарушения), еще не означает, что одна из переменных является причиной другой.
Трехступенчатая схема эксперимента
Когда ученые хотят убедительно доказать существование причинной связи, они используют трехступенчатую схему эксперимента (Kimble, 1978). Схема эксперимента — это план, по которому проводятся наблюдения.
1. На первом этапе необходимо создать различные группы, которые будут исследоваться. В примере с влиянием оценок типа «зачет-незачет» на объем знаний это группа студентов, получающих численные оценки, и группа студентов, которые получают «зачет» или «незачет».
Важно, чтобы эти группы не имели между собой других значимых различий. Нельзя, чтобы все студенты из первой группы посещали лекции профессора Занудного, а все студенты из второй группы занимались у профессора Бормотухина. Один из профессоров может преподавать лучше, и из-за этой дополнительной переменной студенты из одной группы узнают больше, чем студенты из другой группы. Один из способов избежать смешанного влияния переменных — это оценивать половину студентов каждой группы по одной из систем, причем разделение на половины произвести случайным образом. Для того чтобы причинная связь было строго обоснованной, в начале эксперимента группы должны быть поставлены в равные условия. Случайное распределение испытуемых по группам является принципиальным требованием при определении причинной связи.
2. Вторым этапом является «применение экспериментального воздействия». Если бы мы исследовали влияние лекарства, то одна группа получала бы лекарство, а вторая — нет. Обычно, группа, которая не получает лекарство, получает плацебо, т. е. вещество, которое имеет такой же внешний вид и вкус, как лекарство, но химически нейтрально. Плацебо дают для того, чтобы избежать влияния психологических факторов — веры испытуемых в эффективность лекарства и связанных с этим ожиданий. Тема ожиданий и их роли в тенденциозной интерпретации результатов будет обсуждаться ниже в этой главе. Как мы уже знаем, когда подобные методы были использованы для проверки эффективности лаэтрила, оказалось, что он не помогает от рака. В эксперименте с оценками термин «воздействие» означает обучение в условиях применения одной из двух систем — бинарной или численной.
3. Последним этапом является оценка полученных результатов. Проводятся измерения, и две (или более) группы сравниваются по определенному итоговому показателю. Если бы исследование касалось нового лекарства от головной боли, то сравнивалась бы частота и сила головных болей у испытуемых из разных групп. В примере с оценками результаты итогового экзамена у студентов из группы с численными оценками сравнивались бы с результатами студентов из группы «зачет-незачет». Если результаты у одной из групп окажутся значительно выше, чем у другой, то мы получим сильное подтверждение гипотезы о том, что одна из систем оценок вызывает повышение старательности студентов и приводит к увеличению объема их знаний.
Конечно, не всегда имеется возможность в начале опыта поставить группы в равные условия и распределить испытуемых по группам случайным образом, но когда это возможно, результаты могут быть использованы для подтверждения более сильных причинных связей, чем в условиях менее строгого контроля.
Рассмотрим следующий гипотетический пример:
Исследователи из Университета Умников изучали причины разводов. Они обнаружили, что 33 % недавно разведенных супружеских пар говорят, что в течение двухлетнего периода, предшествовавшего разводу, у них были серьезные разногласия по поводу денег. Ученые сделали вывод, что материальные разногласия являются главной причиной разводов. В качестве способа снижения уровня разводов они предлагают супружеским парам научиться справляться с этими разногласиями.
Правилен ли «ход рассуждений»? А если есть ошибки — в чем они? Их здесь очень много. Во-первых, у нас нет сравнительных данных о группе пар, которые не развелись (т. е. нет контрольной группы). Может быть, в 33 % всех семей возникают разногласия по поводу денег; может быть, процент этих разногласий еще выше среди семей, которые не развелись. Во-вторых, нет основания считать, что материальные разногласия вызвали развод или даже ему способствовали. Может быть, в распадающихся семьях возникает больше разногласий по любому поводу. В-третьих, возникает проблема, связанная с ретроспективными исследованиями, которую мы подробнее обсудим в следующем разделе. Исследования, подобные этому, встречаются на каждом шагу: в ток-шоу на радио, в выпусках новостей, научных журналах или в собственных объяснениях причин тех или иных жизненных событий, которые дают люди. Если при интерпретации комментариев такого рода вы будете опираться на принципы проверки гипотез, то у вас меньше шансов быть обманутыми.
Применение принципов изоляции и контроля
В предыдущих главах я приводила замечание Пиаже о том, что люди, достигшие высшей ступени когнитивного развития, могут рассуждать о гипотетических ситуациях. Пиаже назвал высшую ступень когнитивного развития стадией формального мышления. Он разработал несколько типов заданий, с помощью которых можно определять, способен ли человек мыслить на этом уровне. Если вы уже читали главу 4, то помните задачу на «комбинаторное мышление», разработанную Пиаже. Для ее выполнения необходима планомерная и упорядоченная процедура выбора сочетаний объектов. Еще одна из задач Пиаже основана на использовании принципов изоляции и контроля, которые являются частью проверки гипотез. Попробуйте выполнить это задание.
Сгибание стержней. Задача заключается в том, чтобы определить, какая из нескольких переменных влияет на гибкость стержней. Представьте себе, что вам дали длинную вертикальную планку, к которой прикреплены 12 стержней. Каждый из стержней сделан из латуни, меди или стали. Стержни бывают двух различных длин и двух различных диаметров. Ваша задача — определить, какая из переменных (материал, длина или толщина) влияет на степень гибкости стержня. Вы можете проверять гибкость каждого стержня, нажимая на его свободный конец и наблюдая, насколько стержень согнется. Вы можете провести сколько угодно опытов, пока не сможете объяснить, какие факторы определяют гибкость стержней. Возможно, вам будет легче представить себе условия эксперимента, если вы посмотрите на рис. 6.1. Что вы должны сделать, чтобы доказать, что гибкость стержня определяется его длиной, или диаметром, или материалом, из которого он сделан, или каким-либо сочетанием этих переменных? Остановитесь на этом месте и запишите свой план решения этой задачи. Не продолжайте чтение, пока не закончите решать задачу.
Рис. 6.1. Сгибание стержней.
Как бы вы определили, что влияет на гибкость стержня — материал, длина или толщина?
Решение задачи о сгибании стержней. Каким способом вы исследовали влияние длины, диаметра и материала на гибкость стержня? Чтобы решить эту проблему, вам надо рассмотреть возможные факторы, от которых может зависеть гибкость стержня, а затем методично поддерживать все переменные, кроме одной, неизменными. Это основная концепция экспериментальных методов. Если вы хотите выяснить, влияет ли на гибкость материал, какие стержни вы будете проверять? Вы будете сгибать медный, латунный и стальной стержни одинаковой длины и диаметра. Таким образом, при проверке влияния переменной «материал», переменные «длина» и «диаметр» будут оставаться постоянными. Одним из возможных при таком подходе опытов является сравнение гибкости коротких и толстых стержней, сделанных из латуни, меди и стали. Точно так же, если вы хотите выяснить, имеет ли значение длина, вы будете сгибать короткие и длинные стержни одинакового диаметра и сделанные из одного материала. В качестве примера можно привести сравнение короткого и толстого медного стержня с длинным и толстым медным стержнем.
Как вы решите, влияет ли диаметр на гибкость стержня? Теперь уже ясно, что для этого надо сравнить два стержня одинаковой длины и сделанные из одного материала, но имеющие разные диаметры. Это можно сделать, сгибая короткий и толстый стальной стержень и короткий и тонкий стальной стержень. Таким образом, вы должны понять, что для решения этой задачи необходимы те же принципы, которые используются при проверке гипотез, и вы должны уметь их правильно применять.
Проспективные и ретроспективные исследования
Рассмотрим пример из области медицины: некоторые медицинские психологи считают, что стрессовые переживания могут вызывать у людей рак. Если бы это была ваша гипотеза, как бы вы проверили ее обоснованность? Один из способов — опросить больных раком; происходили ли с ними события, вызвавшие сильный стресс, непосредственно перед тем, как им был поставлен диагноз. Если стресс приводит к раку, то он должен предшествовать развитию болезни. Опыты, которые проводятся описанным образом, называются ретроспективными экспериментами. При ретроспективных экспериментах исследуется прошедшее, чтобы понять причины последовавших за ним событий. При экспериментах такого рода возникает много проблем. Как уже говорилось в главе 2, память избирательна и уступчива. Не исключено, что, узнав о болезни, человек будет по-другому вспоминать свое прошлое. Он может причислить к травмирующим событиям происшествия, вызывавшие лишь умеренный стресс, такие как плохая оценка по какому-нибудь предмету в колледже. Радостные события, например, повышение по службе, могут быть забыты. Возможно даже, что стресс был сам вызван ранней стадией рака, а не привел к его развитию. Поэтому с помощью ретроспективных исследований трудно определить, вызывает ли стресс заболевание раком.
Проспективные исследования являются более подходящим методом для понимания причинных связей. При этом типе исследований вы выделяете возможные причины в тот момент, когда они появляются, а затем рассматриваете следующий за ними период времени, чтобы выяснить, появились ли гипотетические результаты. При перспективных исследованиях вы бы попросили большую группу людей записывать вызывающие стресс жизненные события (например, смерть супруга, тюремное заключение, потеря работы), когда они происходят, а затем проследили бы, у кого из этих людей разовьется рак. Если вероятность возникновения рака больше у тех, кто пережил более сильный стресс, то это подтверждает вашу гипотезу.
Большинство исследований, которые мы проводим как «интуитивные ученые», являются ретроспективными. Мы часто ищем объяснения уже произошедших событий. Сколько раз вы пытались понять, почему ребенок с ангельской внешностью совершил серьезное преступление, почему новая «звезда» потеряла контакт с аудиторией или почему никудышный политик победил на выборах? Наши попытки найти ретроспективные объяснения событий обречены на ошибки из-за селективности памяти и отсутствия системы в наблюдениях. (Обсуждение этих вопросов см. в разделе о ретроспективной оценке и предвидении будущего в главе 8.)
Корреляция и причинная связь
Процесс, с помощью которого дети превращают свой опыт в знания, как две капли воды похож на процесс, с помощью которого те, кого мы называем учеными, получают научные знания.
Хольт (Holt, 1989, р. 93)
То, что вы сейчас прочитаете, абсолютная правда: с возрастанием веса ребенка увеличивается и количество вопросов стандартного теста интеллекта, на которые он может правильно ответить. Другими словами, чем ребенок тяжелее, тем на большее число вопросов он отвечает. Перед тем, как пичкать своих детей картофельным пюре, чтобы они поумнели, остановитесь и подумайте, что означает приведенное утверждение. Означает ли оно, что от увеличения веса ребенок станет умнее? Вовсе нет! Вес ребенка увеличивается с возрастом, а старшие дети правильно отвечают на большее количество вопросов, чем младшие дети.
В приведенном примере переменные «вес» и «количество вопросов, на которые может правильно ответить ребенок», соотносятся друг с другом. Увеличение одной из переменных связано с увеличением второй переменной — возрастанию веса сопутствует по времени увеличение количества правильных ответов. Коррелирующие переменные — это две или несколько переменных, которые соотносятся между собой. Если вы уже прочитали главу 5, то узнаете в этом подходе ложный довод, называющийся ложной причиной.
Люди часто путают корреляцию с причинной связью. Рассмотрим следующий пример: Уолли и Боб спорили о наследственной природе интеллекта. Уолли вспомнил всех своих знакомых и пришел к выводу, что поскольку, как правило, у умных родителей бывают умные дети, а у глупых родителей — глупые дети, то интеллект передается по наследству. Боб не согласился с ходом рассуждений Уолли, хотя согласился с приведенными им фактами. Он был согласен с тем, что если при тестировании интеллекта родители получают высокие баллы, то и их дети, скорее всего, получат высокие результаты, и то же самое справедливо для низких баллов. Когда две переменные соотносятся таким образом — т. е. возрастают и убывают одновременно, — то между ними существует положительная корреляция. Хотя между интеллектом родителей и интеллектом детей существует положительная корреляция, мы не можем заключить, что интеллект детей зависит именно от родителей (через наследственность или каким-либо другим образом). Не исключено, что дети влияют на интеллект своих родителей или те и другие находятся под влиянием какого-то третьего, не учтенного фактора. Возможно, уровень интеллекта зависит от рациона, уровня доходов или других переменных, связанных с образом жизни, а поскольку эти переменные у членов одной семьи одинаковы, у них, как правило, одинаковый уровень интеллекта.
Теперь давайте рассмотрим другой пример. Многие занимаются бегом трусцой, потому что считают, что физическая нагрузка поможет им избавиться от лишнего веса. В этом примере переменными являются физическая нагрузка и вес. Я слышала, как некоторые утверждали, что поскольку не бывает толстых спортсменов (за исключением, пожалуй, борцов сумо), физическая нагрузка делает людей стройными. Надеюсь, вы можете подойти к этому утверждению критически.
Кажется, что между физической нагрузкой и весом действительно существует корреляция. Люди, которые любят тренироваться, как правило, бывают худыми. Такая корреляция, при которой тенденция к росту одной переменной (физическая нагрузка) связана с тенденцией к убыванию другой переменной (вес), называется отрицательной корреляцией. Давайте обдумаем связь между физической нагрузкой и весом. Существует несколько возможностей: а) возможно, физическая нагрузка приводит к похудению; б) возможно, худые люди склонны тренироваться больше, потому что худому человеку приятнее тренироваться; или в) возможно, что как склонность к тренировкам, так и предрасположенность к похудению вызваны какой-то третьей переменной, например заботой о собственном здоровье либо наследственными факторами. Может быть, существуют наследуемые типы телосложения, при которых люди без всяких усилий остаются стройными и наделены сильными мышцами, которые хорошо приспособлены для физической нагрузки.
Если вы хотите проверить гипотезу о том, что физическая нагрузка приводит к потере в весе, то используйте описанную выше трехступенчатую схему. Если испытуемые, которые случайным образом были отнесены к экспериментальной группе (тренирующейся), по истечении периода воздействия окажутся стройнее, чем те, кто не тренировался, то можно обоснованно заключить, что физическая нагрузка полезна для похудения.
На самом деле вопрос о причинах того или иного явления, как правило, сложен. Вероятно, точнее было бы использовать слово «влияние», а не «причина», потому что обычно на переменную влияет не одна другая переменная, а несколько. Мой коллега (д-р Ричард Блок из университета штата Монтана) предложил для пояснения этой мысли следующий пример: по какой причине человека, совершившего преступление, отправляют на виселицу — потому что кто-то дал ему деньги, на которые он купил оружие для совершения преступления; или потому что кто-то видел, как он совершил преступление; или потому что его никто не остановил? Единственную непосредственную причину удается определить довольно редко.
В целом, при рассмотрении связи между переменными существует несколько возможных объяснений. Кроме того, разумеется, возможно, что они вообще не соотносятся, или не коррелируют. Примерами переменных, между которыми нет корреляции, являются скорость печатания и размер шляпы машинистки, количество волос на голове и средний балл, рост водителя и скорость его реакции на экзамене по вождению.
Положительная корреляция существует между ростом и весом человека, между количеством церквей и числом проституток в городе (возрастает с ростом населения) и между количеством проданного мороженого и количеством зарегистрированных изнасилований (возрастает с повышением температуры воздуха). Примерами отрицательной корреляции являются количество потребляемого детьми фтора и количества их зубов, пораженных кариесом, количество часов, которые студент посвящает занятиям, и число провалов на экзаменах. При выяснении связи между двумя коррелирующими переменными может оказаться, что переменная А вызывает изменения переменной В (А → В), или что переменная В вызывает изменения переменной А (В → А), или что A и В одновременно воздействуют друг на друга (А → В и В → А), или что изменения переменных А и В были вызваны третьей переменной С (С → А и С → В).
Мнимая корреляция
Мунсон (Munson, 1976) приводит забавный анекдот о том, как одно событие принимают за причину другого из-за того, что они происходят одновременно:
Фермер ехал со своей женой на поезде и увидел, как сидящий напротив человек достал что-то из сумки и начал есть. «Эй, мистер, — спросил фермер, — что это вы едите?» «Это банан, — ответил человек, — хотите, попробуйте сами».
Фермер взял банан, очистил его, и как раз в тот момент, когда он проглотил первый кусочек, поезд влетел в тоннель. «Не ешь его, Мод, — закричал он жене, — ты ослепнешь!» (р. 277)
Правда ли, что блондинки больше шутят? Авторы популярной рекламы краски для волос хотят заставить вас поверить, что если вы осветлите свои волосы, вам станет веселее жить. Многие считают, что раз они часто видят, как блондинки веселятся, блондинки живут веселее, чем, например, брюнетки. В этих наблюдениях есть одна загвоздка — существует множество блондинок, которые не развлекаются больше других (кстати, этому выражению крайне необходимо рабочее определение), но вы их не учитываете, потому что они сидят у себя дома или где-нибудь еще, где у вас мало шансов их увидеть. Термин мнимая корреляция введен для обозначения ошибочного мнения о наличии связи между двумя переменными в ситуации, когда на самом деле они не соотносятся (Chapman Chapman, 1967, 1969).
Представления о связях, существующих в мире, есть как у специалистов, так и у неспециалистов. Эти представления определяют характер наблюдений, которые они делают, и способ, с помощью которого ими определяется наличие связи между переменными.
Давайте рассмотрим еще один пример. Часто ли вы видите, как толстяки объедаются? Большинство людей ответит «да». Тем не менее, исследования показывают, что взрослые люди с избыточным весом в общественных местах склонны есть меньше, чем люди с нормальным весом. Мы ожидаем увидеть, что толстяки едят очень много, и видим мир в соответствии со своими представлениями. Когда вы выступаете в роли «интуитивного ученого», остерегайтесь мнимых корреляций. Это явление способствует поддержанию стереотипных мнений (например, рыжие — вспыльчивы, шотландцы — скупы, женщины не разбираются в математике и т. д.). Наши представления о связях между переменными определяют то, какие наблюдения мы делаем и как используем полученную информацию для формулирования заключений.
Валидность
Валидность оценки обычно определяют как степень, до которой эта оценка характеризует именно то, что вы хотите оценить. Если бы я хотела оценить уровень вашего интеллекта и для этого измеряла длину вашего большого пальца на ноге, то эти измерения явно не были бы валидными. Другие примеры валидности не столь очевидны. Популярная радиореклама, расхваливая суп, указывает на то, что в томатном супе больше витамина А, чем в яйцах. Это верно, но не является обоснованной оценкой качества томатного супа. Яйца не являются богатым источником витамина А. Таким образом, проведены неправильные сравнения, и оценка не подтверждает заключение о том, что этот суп представляет собой отличный продукт питания. Если вы уже прочитали главу 5, то должны понимать, что заявление о том, что в томатном супе больше витамина А, чем в яйцах, не поддерживает заключение, что «этот суп — отличный продукт питания». Весьма возможно, что этот суп является прекрасным источником витаминов, но утверждения, подобные приведенному, не поддерживают это заключение.
Как вы прореагируете на следующее утверждение: «Baroness — это блестящая новая шикарная машина, которая будет для своего владельца надежным средством передвижения в течение долгих лет Действительно, при недавно проведенных лабораторных испытаниях Baroness разогналась от 0 до 60 миль в час всего за 7 секунд, опередив шесть других машин, участвовавших в состязаниях». Является ли скорость разгона машины обоснованным показателем ее надежности? Вероятно, нет. Даже если здесь приведены точные цифры, они не являются обоснованной мерой надежности машины. Если вы хотите узнать о ее надежности, вам необходимо выяснить, как часто она требует ремонта, какой средний пробег совершает до того, как превратится в металлолом и насколько она прочна при столкновениях.
Конвергентная (сходящаяся) валидность
Когда несколько различных оценок сходятся к одному заключению, то говорят, что эти оценки имеют конвергентную валидность. Если вы, например, хотите измерить харизму — психологическое качество, несколько большее, чем просто обаяние, и присущее, как считается, столь разным людям, как Тина Тернер, Пол Маккартни и Роберт де Ниро, — вам потребуется, чтобы ваши оценки были конвергентными. Вы должны выбрать такой способ оценки харизмы, чтобы высокую оценку получали люди, которых выбирают на посты лидеров и которые обладают другими личными характеристиками, обычно связанными с харизмой. Если согласно условиям вашего теста высокий результат получит девушка, не пользующаяся успехом в вашем классе, то вам надо еще раз задуматься о валидности теста.
Люди, не занимающиеся научной работой, тоже должны помнить о необходимости конвергентной валидности. Для того чтобы заключить, что ваша одноклассница Уилла Мэй застенчива, потому что колеблется перед тем, как заговорить с вами, надо выяснить, проявляется ли ее застенчивость в других местах и с другими людьми. Если она часто поднимает руку и выступает на занятиях, то вы не можете сделать вывод о ее застенчивости, поскольку такая непоследовательность в поведении указывает на отсутствие конвергентной валидности.
Идея конвергентной валидности весьма напоминает конвергентную структуру аргументации, которая рассматривалась в главе 5. Если вы уже прочитали главу 5, то помните, что сила аргументации увеличивается, если заключение поддерживают (или к нему сходятся) много посылок. Точно такая же ситуация возникает, когда несколько источников данных подтверждают одну гипотезу. В этих случаях используется различная терминология (поддержка заключения и подтверждение гипотезы), но за ней стоит одна и та же мысль: чем больше доводов или свидетельств мы можем привести в пользу истинности какого-либо утверждения, тем сильнее может быть наша уверенность в его истинности.
Мнимая валидность
Все жалуются на память, но никто не жалуется на свои суждения.
Ларошфуко (1613–1680)
Как специалисты, так и неспециалисты испытывают глубокую уверенность в своих выводах о большинстве жизненных событий, даже если эта уверенность не обоснована объективными данными. Чрезмерная уверенность в суждениях называется мнимой валидностью. При экспериментальном исследовании этого явления Оскамп (Oskamp, 1965) обнаружил, что, по мере того как врачи получали все больше информации о своих пациентах, они испытывали все большую уверенность в своих суждениях об этих пациентах. Этот результат любопытен тем, что суждения не становились точнее, — врачи лишь больше верили в свою правоту. Почему люди доверяют ошибочным суждениям? Существует несколько причин, по которым мы упорно сохраняем уверенность в своих суждениях. Одним из главных факторов является селективная природа памяти. Рассмотрим эпизод из моих личных воспоминаний: когда я была маленькая, я часто смотрела с отцом по телевизору матчи по бейсболу с участием команды Philadelphia Phillies. Как только очередной игрок с битой приближался к базе, мой отец восхищенно кричал: «Он сейчас забьет, я точно знаю!» Конечно, чаще всего он ошибался. (Болельщикам Phillies в 1950-е и 1960-е гг. приходилось туго.) В тех редких случаях, когда игрок действительно забивал, мой отец потом неделями рассказывал об этом: «Да, как только он подошел к базе, я понял, что он сейчас забьет. Мне всегда это ясно, стоит только взглянуть на игрока». В этом и в огромном количестве других случаев мы выборочно вспоминаем свои удачные суждения и забываем неудачные. Это поддерживает нашу уверенность в собственных суждениях.
Второй причиной мнимой валидности является то, что мы не ищем и не учитываем противоположную информацию. (Дополнительное обсуждение этого явления будет проведено в главе 8.) Это основная причина, по которой люди склонны верить, что между переменными существует корреляция, когда на самом деле ее нет. Допустим, вы работаете в отделе кадров большой корпорации. В течение года вы приняли на работу в корпорацию 100 новых сотрудников. Как проверить, насколько правильные (валидные) решения вы приняли, наняв их? Большинство людей для этого проверили бы, как работают эти новые сотрудники. Предположим, что вы провели такую проверку и обнаружили, что 92 % из них выполняют свою работу компетентно и профессионально. Усиливают ли эти выводы вашу уверенность в своих суждениях? Если на этот вопрос вы ответили «да», то вы забыли рассмотреть противоположные данные. Вы не учли тех людей, которых вы не приняли на работу. Может быть, большинство из них стали вице-президентами в компании «Дженерал Моторс»? Если вы обнаружите, что 100 % из тех, кого вы не взяли на работу, занимают высокие посты в компании ваших конкурентов, то вам необходимо пересмотреть свою уверенность в умении судить о людях.
Мы не учитываем противоположную информацию частично из-за того, что во многих случаях ее невозможно получить. У работников отделов кадров нет информации о тех сотрудниках, которых они не взяли на работу. Аналогичным образом мы не располагаем большим количеством данных о человеке, с которым решили не встречаться, или о предмете, лекции по которому решили не посещать, или о доме, который не купили. Таким образом, имея лишь часть информации, мы можем заключить, что наши суждения лучше, чем они есть на самом деле.
Проведя критический обзор теста Роршаха (обычно этот тест называют «тестом чернильных пятен», потому что испытуемых просят сказать, что они видят в бесформенных симметричных чернильных пятнах), Доус (Dawes, 1994) пришел к выводу, что этот тест не является валидной оценкой умственного функционирования. Он не нашел подтверждений его полезности при диагностике или лечении умственных расстройств (хотя с помощью этого теста можно выявить людей, которые дают необычные ответы). Это означает, что тест Роршаха не валиден. Однако Доус сообщает, что некоторые психотерапевты так прореагировали на эти эмпирические результаты: «Да, я знаю, что тест не валиден, но я нахожу его полезным». Вам не кажется смешным такое утверждение? Если тест не валиден, то он не может быть полезным. Если психотерапевты считают его полезным, они обманывают себя и демонстрируют пример мнимой валидности. Тест может казаться им полезным, поскольку они интерпретируют ответы пациентов способами, которые, по их мнению, имеют смысл, но его реальная ценность заключается лишь в наглядной демонстрации нашей приверженности к стереотипным мнениям.
Надежность
Надежность оценки — это постоянство, с которым она оценивает именно то, что нужно оценить. Если бы вы для измерения длины своего стола пользовались резиновой линейкой, которая может растягиваться или сжиматься, то при каждом измерении вы, вероятно, получали бы разные результаты. Конечно же, мы хотим, чтобы наши измерения были надежными.
Ученые, занимающиеся общественными и естественными науками, уделяют большое внимание проблеме надежности измерений. Например, тест интеллекта считается надежным тогда, когда один и тот же человек получает результаты, которые лежат в одном и том же диапазоне при каждом тестировании. Когда мы выступаем в роли «интуитивного ученого», мы редко учитываем надежность. Приходя к выводу о необъективности преподавателя или студента, мы часто полагаемся на один или два примера поведения без учета надежности нашей оценки этого человека.
Предположим, вы узнали, что ваш друг Рикардо провалился на экзамене, который все остальные легко сдали. Можете ли вы заключить, что его преподаватель с предубеждением относится к латиноамериканцам? Для этого необходимо собрать много других наблюдений за преподавателем и выяснить, насколько часто латиноамериканцы проваливаются у него на экзаменах. Если процент таких провалов в его классе необычно высок по сравнению с другими классами, то у вас есть веские основания заключить, что преподаватель с предубеждением относится к латиноамериканцам. Без тщательных измерений и, в данном случае, без выборки большего размера вы не можете сделать вывода о необъективности преподавателя.