11. Эх!кономика
Запрашивают ли продавцы автосалонов большую цену с покупательниц-женщин, чем с мужчин?
Влияет ли размер аудитории на качество обучения?
Полезны ли мультивитамины?
Объективен ли работодатель к кандидатам, которые долгое время были безработными, или предубежден потому, что они длительное время не были ничем заняты?
Надо ли женщинам постклимактерического возраста принимать гормональные препараты, чтобы снизить риск заболеваний сердечно-сосудистой системы?
На эти вопросы давали множество ответов. Некоторые из них опирались на исследования, результаты которых были неверны из-за ошибочной методики. Некоторые были в общем-то правильными, потому что использованные научные методы были верны.
Эта глава объясняет три главных пункта, которые исключительно важны для понимания научных открытий и ответа на вопрос, стоит ли им доверять.
1. Исследования, которые для доказательства научного факта опираются на корреляции, могут оказаться безнадежно ошибочными — даже когда эти корреляции предстают в упаковке «анализа множественной регрессии», который «контролирует» множество переменных.
2. Эксперименты, в которых людей (или любые другие объекты) в случайном порядке распределяют по группам, на которых сравнивают разные способы воздействия (или воздействие и его отсутствие), в целом намного точнее исследований, основанные на анализе множественной регрессии.
3. Наши предположения, касающиеся человеческого поведения, так часто ошибочны, что если вообще возможно проверить какую-нибудь важную гипотезу о поведении, то нужно в обязательном порядке проводить эксперимент.
Анализ множественной регрессии
Все вопросы, которые прозвучали в начале этой главы, спрашивали об одном: может ли некая независимая переменная (она же предиктор — представляющая собой исходные данные или предполагаемую причину) влиять на зависимую или результирующую переменную — то есть на конечный результат или достигнутый эффект. Эксперименты задают разные значения независимым переменным; корреляционный анализ же просто измеряет их.
Один из методов, использующий корреляционный анализ, это анализ множественной регрессии (АМР), в котором некоторое количество независимых переменных коррелирует одновременно (иногда последовательно, но мы не будем обсуждать этот вариант АМР) с некоторым количеством зависимых переменных. Интересующая нас независимая переменная (предиктор) изучается наряду с другими независимыми переменными, которые называются контрольными переменными. Цель — показать, что переменная А влияет на переменную Б, за вычетом суммарного влияния других переменных. Другими словами, взаимосвязь остается, даже когда принимается во внимание влияние контрольных переменных на зависимые переменные.
Рассмотрим следующий пример. Курение коррелирует с повышенной вероятностью заболеваний сердечно-сосудистой системы. Хочется сказать, что курение является причиной заболеваний сердечно-сосудистой системы. Но проблема в том, что и с курением, и с этими заболеваниями коррелирует множество других переменных, таких как возраст, социальное положение и избыточный вес. Курильщики в возрасте курят дольше, чем курильщики молодые, поэтому из корреляции «курение — болезнь» нужно исключить влияние возраста, иначе результат будет говорить о том, что с заболеваниями сердечно-сосудистой системы связано объединение двух переменных — возраста и курения. А мы хотим знать, есть ли связь между курением и сердечно-сосудистыми заболеваниями, независимо от того, сколько человеку лет. Для этого мы «контролируем» влияние возраста на вероятность заболевания, исключая корреляцию «возраст — болезнь» из корреляции «курение — болезнь». В результате мы сможем сказать, что связь между курением и сердечно-сосудистыми заболеваниями установлена для каждой возрастной группы.
ТУ же самую логику можно применить и к социальному статусу. При прочих равных составляющих, чем ниже ступенька социальной лестницы, тем выше вероятность, что занимающий ее человек будет курить и чем ниже социальный статус, тем выше риск сердечных заболеваний, независимо от других факторов риска, таких как курение. Так же обстоит дело с избыточным весом. И так далее. Корреляции этих переменных как с курением, так и с риском заболеваний нужно исключать из корреляции между курением и сердечно-сосудистыми заболеваниями.
Теоретический аспект анализа множественной регрессии состоит в том, что если вы контролируете всё, что связано с независимой переменной и зависимой переменной, выделив из общего сочетания именно эти корреляции, то вы можете обнаружить истинную причинно-следственную связь между предсказывающей и результирующей переменными. Это в теории. На практике множество факторов мешают устойчиво получать этот результат.
Во-первых, как определить, что мы установили все возможные искажающие факторы — переменные, связанные и с предсказывающей, и с результирующей переменной? Почти никогда нельзя утверждать это наверняка. Мы можем только измерить то, что кажется нам важным, и проигнорировать бесконечное число переменных, которые кажутся нам неважными. Но ПООН: Предположения Обычно Оказываются Неверными. Поэтому, как правило, мы терпим поражение в этой игре.
Во-вторых, насколько точно мы измеряем каждую возможную искажающую переменную? Если мы измерили ее неточно, это значит, что мы недостаточно проконтролировали ее действие. Если мы измерили ее настолько неточно, что она не валидна, значит, мы не проконтролировали вообще ничего.
Иногда анализ множественной регрессии — единственный доступный способ исследовать важные и интересные вопросы. Например, вопрос о том, связана ли религиозность и соблюдение обрядов с уровнем воспроизведения потомства. Мы не можем провести эксперимент для изучения этого вопроса, случайным образом назначив, кому из участников эксперимента быть религиозным, а кому нет. Мы можем использовать только корреляционные методы, такие как АМР. Между прочим, религиозность коррелирует с уровнем воспроизведения потомства как на индивидуальном, так и на государственном и культурном уровне. При условии контролирования факторов дохода, возраста, состояния здоровья и других факторов на индивидуальном уровне, на уровне этнических групп и на уровне государств корреляция такова, что чем выше религиозность, тем выше уровень воспроизведения потомства. Мы не знаем, почему именно это так, и корреляция между религиозностью и плодовитостью может быть не причинно-следственной связью, а, скорее, следствием какой-либо иной, третьей, неизвестной переменной, которая влияет как на религиозность, так и на уровень воспроизведения потомства. Может быть, причинно-следственная связь здесь вообще работает в обратном направлении: люди, у которых много детей, начинают искать поддержку в религии! Тем не менее данное корреляционное открытие интересно само по себе и может привести к реальным практическим последствиям.
Я хотел бы окончательно прояснить суть дела: корреляционные исследования и исследования множественной регрессии далеко не всегда бесполезны. Я сам часто использую принцип множественной регрессии, когда провожу эксперименты по установлению причинно-следственной связи. Я чувствую себя более уверенно, когда знаю, что данная взаимосвязь существует в естественных условиях, а не только в лаборатории или совершенно нетипичной окружающей среде.
Более того, всегда можно придумать уловки, которые убедят нас, что мы что-то узнали о причинно-следственной связи. Возьмем корреляцию между благосостоянием государств и уровнем IQ населения. Что здесь причина, а что следствие? Сама по себе данная корреляция весьма проблематична. Как благосостояние, так и IQ связаны с множеством других факторов — например, с физическим здоровьем. «Здоров, богат и умен» — это не просто бытовое представление о завидном женихе; эти три фактора тесно связаны между собой целым набором корреляций, включающих в себя множество переменных, которые потенциально могут быть причинами или следствиями того или иного фактора. Кроме того, причинно-следственная связь здесь весьма правдоподобно работает в обоих направлениях. По мере того как население страны развивается умственно, оно становится богаче вследствие того, что людям становится доступны более прогрессивные и высокоорганизованные способы достижения благосостояния. А по мере того, как население становится богаче, оно развивается умственно, потому что благосостояние в целом способствует повышению качества образования.
Но иногда мы можем придумать неплохую историю о причинно-следственной связи, наблюдая так называемую запаздывающую корреляцию, что означает проявляющуюся позже корреляцию независимой перемен-нои (предполагаемой причиной) с другой переменной (предполагаемым результатом). Если население страны становится умнее — например, из-за повышения качества образования — будет ли оно в дальнейшем также и богатеть? Конечно, будет. Например, несколько десятилетий назад в Ирландии была предпринята хорошо организованная и очень успешная попытка по улучшению образовательной системы, особенно в старших классах средней школы, профессиональных училищах и колледжах. За короткое время в стране на 50% выросло число поступающих в колледжи. Примерно за 30 лет уровень ВВП на душу населения в Ирландии, где результаты замера уровня IQ были намного ниже, чем в Англии (некоторые английские психологи объясняли это генетическими факторами!), превысил уровень ВВП на душу населения в Англии. В Финляндии тоже произошли серьезные положительные сдвиги в сфере образования, начатые несколько десятилетий назад и направленные в основном на то, чтобы студенты из бедных семей получали такое же качественное образование, как и студены из богатых семей. К 2010 г. Финляндия вышла на первое место в мире по результатам международных академических тестирований, при этом по доходу на душу населения финны обошли японцев и англичан, немного уступив американцам. В тех странах, которые, как и США, в последние десятилетия не предпринимали столь героических усилий по улучшению образования, уровень дохода на душу населения снизился относительно других развитых стран. Эти данные являются чисто корреляционными, но они показывают, что, когда государство начинает серьезно заботиться об улучшении уровня образования, это приводит и к улучшению благосостояния. Когда же уровень образования стагнирует, государство начинает отставать от других стран по уровню благосостояния. Звучит вполне убедительно.
Бывают и другие обстоятельства, которые могут придать корреляционному исследованию такой уровень убедительности, что его можно поставить в один ряд с естественными экспериментами и даже с рандомизированными контрольными экспериментами. Например, широкая распространенность эффекта иногда может заставить нас предположить, что это не просто следствие корреляции переменных. Мы также можем быть более уверены, что данный метод приносит результат, если его эффект «зависит от дозировки». То есть чем интенсивнее и чаще применяется данный метод, тем выше уровень отдачи. Например, вероятность сердечно-сосудистых заболеваний у людей, которые выкуривают две пачки сигарет в день, выше, чем у выкуривающих несколько сигарет. Таким образом, это скорее показывает, что курение действительно ухудшает состояние сердечно-сосудистой системы, чем то, что употребление сигарет никак не связано с заболеваемостью.
Проблемы анализа множественной регрессии связаны с тем, что его проводят слишком часто. Я собираюсь рассказать об этой проблеме максимально честно, потому что СМИ постоянно сообщают об открытиях, сделанных с помощью этого весьма ненадежного метода, а на основе этих открытий принимаются важные решения, касающиеся всего общества. Все эпидемиологи, ученые-медики, социологи, психологи и экономисты используют этот метод. А он может привести к серьезнейшим ошибкам, и утверждения приверженцев, что он может раскрыть причинно-следственную связь, обычно притянуты за уши.
Известно много примеров, когда АМР говорил о наличии причинно-следственной связи одно, а рандомизированный контрольный эксперимент — совершенно другое. В таких случаях следует верить результатам экспериментов.
Влияет ли, на ваш взгляд, количество учеников в классе на их успеваемость? Кажется весьма резонным предположить, что да, хотя десятки исследований, основанных на АМР и проведенных уважаемыми учеными, утверждают, что (за вычетом влияния среднего дохода семей в том районе, где находится школа, размера школы, результатов прохождения IQ-тестов, размера города и его географического положения) среднее количество учеников в классе никак не коррелирует с успеваемостью ученика. Отсюда вывод: теперь мы знаем, что не нужно тратить деньги на уменьшение количества учеников в классе.
Однако исследователи из Теннесси провели рандомизированный эксперимент, в который они включили классы разной величины. Подбросив монетку, ученые распределили детей из детского сада по маленьким (от 13 до 17 детей) либо большим (от 20 до 25 детей) группам. Исследование показало улучшение результата стандартного тестирования примерно на 0,22 СО; при этом более явное улучшение результатов было заметно у чернокожих детей.
В настоящее время у ученых есть результаты еще трех экспериментальных исследований эффекта уменьшения количества учеников в классе, и все они показали почти тот же самый результат, что исследование в Теннесси. Эти четыре эксперимента не дополняют исследования влияния количества учеников на успеваемость. Они замещают все проведенные ранее исследования, основанные на анализе множественной регрессии. Потому что экспериментальные результаты заслуживают гораздо больше доверия.
Почему же анализ множественной регрессии показал, что количество учеников в классе практически не имеет значения? Я не знаю, но нам необязательно знать это, чтобы составить твердое мнение о том, имеет ли значение размер класса.
Конечно, все эти четыре эксперимента оставляют открытыми множество вопросов. Мы не знаем, одинаково ли значимо количество учеников в классе для разных регионов, городов и сел, социальных слоев и т.д. Мы не знаем, что именно из всего, что происходит в классе, оказывает разный результат на учебу. Дальнейшие эксперименты, возможно, помогут нам ответить на эти вопросы и укрепят нашу уверенность в том, что количество учеников в классе имеет значение для успеваемости.
Насколько целесообразно тратить дополнительные деньги на уменьшение количества учеников в классах — это уже другой вопрос, и не мне отвечать на него. В Финляндии, где не такие уж маленькие классы в школах, улучшение качества образования стало в основном результатом того, что учителям повысили зарплату и предлагать учительские вакансии стали в основном лучшим студентам, а не самым слабым, как это практикуется в США. В любом случае это нельзя определить, просто вычислив благоприятный эффект воздействия переменной X на переменную Y; здесь требуется полный анализ эффективности затрат.
Еще одна проблема корреляционных исследований, подобных АМР, состоит в том, что им по определению свойственны ошибки, связанные с самоотбором. Случаи — люди, классы, сельскохозяйственные участки — отличаются друг от друга в ряде аспектов. Те, кто курит много лет, не просто курят много лет. Длительное курение означает массу других аспектов, связанных с этим фактом: более старший возраст, более низкое социальное положение, избыточный вес. Класс А больше, чем класс Б, но они еще отличаются и в некоторых других аспектах, которые исследователь никак не может контролировать. В классе А учитель лучше, чем в классе Б, потому что директор посчитал, что именно этот учитель лучше других справится с большим классом. В классе А выше успеваемость, несмотря на большое количество учеников, потому что, по мнению директора, более способные ученики меньше пострадают от относительного недостатка внимания учителя, чем менее способные ученики. И так далее. Эту задачу не удастся решить, просто добавив в эксперимент больше классов или больше контрольных переменных величин.
В тех исследованиях, где случаи распределяются по условиям эксперимента в случайном порядке, разнообразие классов в различных аспектах все равно сохранится. Но что немаловажно, именно экспериментатор выбирает условия. Это означает, что в экспериментальных и контрольных классах должны преподавать примерно одинаково квалифицированные учителя, учиться должны примерно одинаково способные и одинаково мотивированные ученики, учебные ресурсы должны быть примерно одинаковыми. Классы не выбирают себе значения каждой из этих переменных, это делает экспериментатор. Таким образом, единственное, чем должны отличаться экспериментальный и контрольный класс, это исследуемая переменная, то есть размер класса. Такие эксперименты, как эксперимент по определению связи успеваемости с количеством учеников в классе, обычно неубедительны. Учителя и администрация школы всегда прекрасно осведомлены об условиях, в которые поставлены их ученики. Они знают, какие классы маленькие, а какие большие, знают, что это может влиять на качество преподавания, а также сколько сил учитель вкладывает в свою работу. Однако эти проблемы меркнут при сравнении с проблемой самоотбора.
Путаница в медицинских исследованиях
Вы знали, что потребление оливкового масла в больших количествах снижает риск инсульта на 41%? Вы знали, что если вам сделали операцию по удалению катаракты, то в следующие 15 лет риск того, что вы умрете, на 40% ниже, чем у людей, страдающих от катаракты и не прооперированных? Вы знали, что глухота вызывает слабоумие? Вы знали, что подозрительность также вызывает слабоумие?
Эти утверждения не зря могут показаться вам сомнительными. Но так называемые научные открытия, похожие на те, что я привел выше, то и дело появляются в СМИ. Обычно они основаны на эпидемиологических исследованиях. (Эпидемиология — это наука о закономерностях возникновения и распространения заболеваний и их причинах.) Большая часть научных исследований в области эпидемиологии основаны на АМР. В исследованиях, использующих АМР, предпринимаются попытки контролировать такие факторы, как социальное положение, возраст и предшествующее болезни состояние здоровья. Но они не могут обойти проблему самоотбора. Те люди, которые проходят определенный вид лечения, или те, кто употребляет много какого-то продукта, или те, кто принимает или не принимает определенные витамины, — таких отличий невероятно много.
Давайте рассмотрим исследование, утверждающее, что за вычетом контрольных факторов, таких как «социально-демографические показатели, физическая активность, индекс массы тела и факторы риска, влияющие на инсульт», у людей, которые потребляют в пищу больше оливкового масла, реже случается инсульт. В одном исследовании говорилось, что риск инсульта у тех, кто употребляет много оливкового масла, на 41% ниже, чем у тех, кто не употребляет его никогда. Но, может быть, вовсе не само по себе потребление оливкового масла снижает смертность, а что-то, что коррелирует с его потреблением. Во-первых, давайте посмотрим на национальность. Американцы итальянского происхождения очень любят оливковое масло, а афроамериканцы его практически не употребляют. А продолжительность жизни американцев итальянского происхождения значительно больше, чем продолжительность жизни афроамериканцев, у которых, кстати говоря, особенно часто случаются инсульты.
Обычно в эпидемиологических исследованиях больше всего сбивает с толку социальное положение исследуемого населения. Социальное положение неизбежно и очевидно влияет на различия, связанные с риском инсульта, а также на состояние здоровья в целом. Богатые люди отличаются от обычных людей. У них больше денег. Люди, у которых больше денег, могут позволить себе постоянно использовать оливковое масло вместо кукурузного. Люди, у которых больше денег, также чаще бывают начитаны, чаще общаются с другими начитанными людьми, а значит, они в курсе того, что оливковое масло полезнее для здоровья, чем его более дешевые заменители. Люди, у которых больше денег, получают более качественное медицинское обслуживание. Уровень жизни людей, у которых больше денег, а также выше социальное положение, качество образования, доход и профессиональный статус, — в целом выше.
Неспособность проконтролировать принадлежность к определенному социальному классу в эпидемиологическом исследовании приводит тому, что любая попытка установить причину данного состояния по медицинским показателям будет провальной. Но предположим, что исследователь действительно пытается учесть социальную принадлежность. Как это сделать? Кто-то возьмет за основу доход, кто-то — образование, кто-то — профессию. Что лучше? Или нужно как-то скомбинировать все три фактора? На самом деле различные эпидемиологические исследования пытаются определять социальную принадлежность и по одному, и по всем, и ни по одному из этих аспектов. Это и приводит к разнобою «медицинских открытий», который мы видим в СМИ. (Жир вреден для вас. Нет, жир полезен. Красное мясо полезно. Нет, красное мясо вредно. Антигистаминные препараты облегчают симптомы простуды. Нет, антигистаминные препараты не помогают при простуде.) Разнобой данных часто является следствием либо различных подходов исследователей к социальному статусу испытуемых, либо игнорирования влияния социального статуса вообще.
Но социальное положение — лишь один из огромного числа потенциально осложняющих дело факторов, присутствующих в исследованиях АМР. Практически все, что коррелирует и с предсказывающей, и с результирующей переменной, в таких исследованиях претендует на то, чтобы стать объяснением корреляции между ними.
Сейчас на рынок выпущены тысячи пищевых добавок. На основании АМР иногда объявляют о пользе той или иной пищевой добавки. СМИ тут же рассказывают об этом открытии. К сожалению, читателю обычно не сообщают, сделано ли данное открытие на основе АМР, что означает, что на него не нужно обращать никакого внимания, или же на основе подлинного эксперимента, что означает, что это открытие может быть важным. Даже те журналисты, которые специализируются на теме здоровья, обычно не до конца понимают, насколько критична разница между этими двумя методами исследованиями.
Можно бесконечно приводить примеры того, как исследования на основе АМР показали один результат, а эксперименты — другой. Например, АМР показал, что добавка витамина Е в пищу снижает вероятность рака простаты. В разных штатах были проведены эксперименты, в ходе которых мужчины-участники были случайно распределены по двум группам: экспериментальная группа принимала витамин Е, контрольная группа принимала плацебо. Этот эксперимент выявил небольшое повышение вероятности заболевания раком из-за употребления витамина Е.
Витамин Е — не единственная пищевая добавка, вызывающая недоверие. Множество экспериментальных исследований показывают, что мультивитамины, которые принимает половина американцев, не приносят либо никакой пользы, либо очень малую, а если принимать повышенное количество витаминов, то организму это причинит только вред. Что касается остальных 50 000 пищевых добавок, которые имеются в продаже, то об их эффективности нет практически никаких доказанных сведений. Большинство доказательств, которые имеются сейчас о пищевых добавках, говорят о том, что они бесполезны, а некоторые — и вредны. К сожалению, политика компаний — производителей пищевых добавок привела к тому, что конгресс исключил их продукцию из списка товаров, подлежащих государственному регулированию, и в том числе освободил производителя от требования экспериментально исследовать эффективность продукции. Как следствие, миллиарды долларов ежегодно растрачиваются на лекарственные средства, которые либо бесполезны, либо вредны.
Использование анализа множественной регрессии там, где нужны исключительно эксперименты
Чем дольше человек сидит без работы, тем труднее ему найти ее. В то время, когда пишется эта книга, количество людей, которые не работают в течение короткого срока (до 14 недель), едва превышает число безработных перед началом Великой рецессии и мирового финансового кризиса 2007-2008 гг. Но число «долгосрочных» безработных на 200% превышает число безработных в тот же период. Есть ли у работодателей предубеждение к долгое время не работавшим людям? Неужели к ним теряют интерес лишь потому, что у них долго не было работы? АМР не может дать ответа на вопрос, действительно ли про прочих равных переменных работодатели несправедливо обходят вниманием тех, кто не работал долго, предпочитая тех, кто совсем недавно остался без работы. Ведь у людей, не работавших долгое время, могут быть негативные отзывы от предыдущих работодателей, а может быть, они не прикладывали достаточно усилий, чтобы найти работу, или были чересчур разборчивы в поиске. Политики, как правило, ссылались именно на эти причины, пытаясь объяснить ситуацию в период Великой рецессии. Но нельзя узнать, верны ли эти объяснения, проведя анализ множественной регрессии. Никакое «контролирование» подобных переменных не способно избавить такой анализ от ошибки самоотбора и с точностью сказать, существует ли данное предубеждение.
Единственный способ ответить на этот вопрос — провести эксперимент. И такой эксперимент был проведен; ответ известен. Экономисты Ранд Гайяд и Уильям Диккенс разослали 4800 фиктивных заявок о приеме на работу на 600 открытых вакансий. Даже в тех случаях, когда данные претендентов были идентичны, за исключением мнимого периода безработицы, тех, кто был без работы короткое время, приглашали на собеседования в два раза чаще, чем тех, кто не работал длительный срок. Более того, тех, кто не работал короткое время, чаще приглашали на собеседование даже в тех случаях, когда их квалификация была ниже, чем у соискателей, не работавших длительное время!
Существуют вопросы, на которые можно ответить только с помощью эксперимента, но некоторые ученые все равно предпочитают искать ответы на них, прибегая к анализу множественной регрессии.
Множество экспериментальных исследований показали, что, если работу ищут афроамериканцы с характерными именами (Д’Андре, Лакейша), их реже приглашают на собеседования, чем таких же кандидатов с более обычными именами (Дональд, Линда). Вероятность того, что соискателей с именами, указывающими на белый цвет кожи, пригласят на собеседование, была на 50% выше, чем у соискателей с именами, указывающими на черный цвет кожи. Имя, указывающее на белый цвет кожи, по сравнению с именем, указывающим на черный цвет кожи, можно приравнять к ценности восьмилетнего опыта работы. Будучи не совсем уверенными в том, что «черные» имена так сильно ухудшают экономические возможности человека, известные экономисты Роланд Фрайер и Стивен Левитт провели исследование множественной регрессии, изучив соотношение между «черным» именем и различными экономическими показателями. Для исследования была выбрана популяция черных женщин нелатиноамериканского происхождения в Калифорнии, которые выросли и остались жить в этом штате. В качестве зависимых переменных были выбраны не такие аспекты, как успешный поиск работы, уровень дохода и профессиональный статус, а косвенные показатели уровня жизни — уровень дохода относительно среднего дохода женщин в районе проживания, а также наличие полиса добровольного медицинского страхования. Исследователи отмечают, что последняя переменная является «лучшим показателем из тех, что у нас есть, напрямую относящимся к уровню профессиональной востребованности женщины». (Именно так — лучшим из тех, что были у этих исследователей. На самом деле это довольно грубый показатель для оценки профессиональной востребованности.)
Фрайер и Левитт обнаружили, что у женщин с именами, указывающими на черный цвет кожи, карьера складывалась значительно хуже, чем у женщин, с именами, указывающими на белый цвет кожи, что и ожидалось после проведения первых экспериментальных исследований. Но соотношение между типом имени и результирующими переменными исчезло, когда они взяли под контроль такие переменные, как процент черных детей в том роддоме, где родилась конкретная женщина; процент черных детей в том регионе, где она родилась; родилась ли ее мать в Калифорнии; возраст матери на момент ее рождения; возраст отца на момент ее рождения; сколько месяцев женщина наблюдалась у врача в течение беременности; родилась ли она сама в обычном районном роддоме; ее вес при рождении; сколько детей она родила; была ли она матерью-одиночкой.
Авторы понимали проблемы, связанные с этим видом анализа. Они признают, что «очевидная недоработка такого эмпирического подхода состоит в том, что, если ненаблюдаемые характеристики женщин коррелируют и с их уровнем жизни, и с их именем, результаты наших исследований будут искажены». И это правда.
Тем не менее авторы исследования продолжают настаивать, что между именем и уровнем жизни нет никакой связи, если исключить все остальные факторы. «Мы не обнаружили... никакой отрицательной зависимости между именами, которые определенно часто носят чернокожие, и уровнем жизни, исключив влияние других обстоятельств при рождении ребенка». Нужно было бы провести оценку чрезвычайно большого количества переменных, многие из которых могли бы лучше предсказать карьерный рост, чем те, что исследовали Фрайер и Левитт, чтобы подтвердить этот вывод. (При исследовании очень большого числа переменных многие из них показывают более крепкие взаимосвязи с зависимой переменной, чем корреляцию с интересующей исследователя переменной, отчего выводы становятся менее надежными.)
Фрайер и Левитт предполагают, что родители могут дать ребенку имя, указывающее на черный цвет кожи, ничуть не беспокоясь о том, что это может плохо повлиять на его будущую карьеру. Это кажется чрезвычайно маловероятным в свете данных экспериментальных исследований.
Недавнее исследование, проведенное Кэтрин Милкман и ее коллегами, показало, что имя, указывающее на черный цвет кожи, определенно может плохо сказаться на шансах поступления в университет. Тысячам профессоров разослали по электронной почте письма якобы от претендентов на постдипломное обучение, которые просили назначить им встречу для обсуждения перспектив проводимых исследований. Юноши с именем, указывающим на белый цвет кожи, на 12% чаще получали приглашение на собеседование с преподавателем, чем юноши с именем, указывающим на черный цвет кожи. Последствия такого отличия могут быть очень серьезны: человек, имеющий возможность работать с выбранным им самим научным руководителем, с большей вероятностью построит более успешную научную карьеру.
Почему Фрайер и Левитт решили, что исследование, основанное на АМР, может быть достаточно веским основанием, чтобы поставить под сомнение результаты экспериментов? Я подозреваю, что причина в том, что называют профессиональной деформацией, — в тенденции перенимать инструменты работы и точку зрения людей одной с нами профессии. В большинстве исследований, которые проводят экономисты, АМР — единственный доступный способ научной работы. Экономисты не могут управлять процентными ставками, установленными Федеральным резервом США. Если вы захотите выяснить, что было бы более эффективно для экономики страны во время Великой рецессии — «затянуть пояса» или, напротив, усилить государственное стимулирование, — вы можете скоррелировать степень жестких экономических мер и интенсивность процесса восстановления, но вы никак не можете случайным образом распределить население страны по данным условиям.
Экономистов учат, что АМР является главным инструментом статистики. Но их абсолютно не учат критическому мышлению. В своей книге, написанной в соавторстве с журналистом Стивеном Дабнером, Стивен Левитт писал об анализе данных, собранных министерством образования США. Это исследование назвали «Долгосрочные динамические исследования детей младшего возраста». В рамках исследования изучалась успеваемость детей с детского сада до пятого класса включительно, с учетом десятка других переменных, таких как уровень дохода и образования родителей, наличие книг в доме, количество книг и того, читали ли ребенку в детстве книги и т.д. Левитт пишет о сделанных на основе АМР выводах о связи между набором этих переменных и успехами ребенка в учебе. Он пришел к выводу, что (за вычетом множества переменных, включая количество книг в доме) «чтение не влияет на результаты тестов в раннем детском возрасте». АМР просто-напросто не предназначен для того, чтобы давать такие сведения, как то, что чтение не важно для интеллектуального развития детей. Это можно выяснить только экспериментальным путем. Левитт также пришел к выводу, что за вычетом множества переменных, включая чтение детям книг, наличие книг в доме сильно влияет на результаты тестов. То есть получается, что само по себе наличие книг положительно влияет на интеллект ребенка, а вот чтение — нет. Вера Левитта в АМР оказалась настолько сильна, что он действительно пытался дать причинно-следственное объяснение такому странному положению вещей.
Еще более серьезной ошибкой стало утверждение Левитта, что внутрисемейная обстановка играет относительно незначительную роль во влиянии на интеллектуальные способности ребенка. Он сделал такой вывод, опираясь на наблюдения за приемными детьми. «Исследования показывают, что успеваемость ребенка в гораздо большей степени зависит от IQ его биологических родителей, чем от IQ его приемных родителей». Но корреляционные данные — это не те данные, на которые можно опираться, оценивая важность внутрисемейной обстановки. Вместо этого нужно рассмотреть результаты естественных экспериментов по усыновлению детей по сравнению с воспитанием их биологическими родителями, социально-экономический статус которых, как правило, ниже. Обстановка, создаваемая приемными родителями, будет во многих отношениях намного более благоприятной, чем в их настоящих семьях. Кроме того, успеваемость приемных детей в школе, как правило, на половину среднеквадратического отклонения выше, а результаты тестов IQ более чем на величину среднеквадратического отклонения выше, чем у их братьев и сестер, которые не были усыновлены. И чем выше социальное положение приемных родителей (а следовательно, чем благоприятнее интеллектуальная обстановка в целом), тем выше будет IQ усыновленного ребенка. На самом деле влияние семьи на интеллектуальные способности ребенка чрезвычайно высока.
В защиту Левитта можно сказать, что не он один ошибся в своих предположениях о влиянии приемной семьи. Ученые-бихевиористы и генетики десятилетиями использовали корреляционные данные и приходили к ошибочным выводам о воздействии окружающей обстановки.
Некоторые выдающиеся экономисты, кажется, вообще не понимают ценности экспериментов. Экономист Джеффри Сакс запустил чрезвычайно амбициозную программу по повышению уровня здоровья, образования и сельского хозяйства в нескольких африканских деревнях, намереваясь улучшить качество жизни в них. Программа стоила очень дорого по сравнению с предложенными альтернативами и встретила жесткую критику со стороны других специалистов по развитию.
Хотя в некоторых деревнях, где Сакс ввел свою программу, условия жизни и улучшились, в нескольких деревнях они улучшились еще больше без помощи Сакса. Он мог бы положить конец критике, случайным образом распределив похожие деревни по условиям эксперимента и сравнив деревни, в которых была введена программа, с деревнями, где программа не вводилась. Это могло бы доказать, что уровень жизни в экспериментальной группе повышается быстрее, чем в контрольной. Сакс отказался проводить этот эксперимент, как он заявил, «по этическим соображениям». А неэтично как раз не проводить экспериментов в условиях, когда это выполнимо. Сакс потратил огромную сумму чужих денег, но мы понятия не имеем, оказали ли эти средства более значительный эффект на жизнь людей, чем могли оказать другие, менее дорогие программы.
Хотя, нужно заметить, что все больше экономистов начинают проводить социальные психологически ориентированные рандомизированные контрольные эксперименты. Один из недавних примеров — особенно впечатляющая серия экспериментов, проведенных экономистом Сендхилом Мулайнатаном и психологом Эльдаром Шафиром, показавшая, что дефицит ресурсов для нормального когнитивного развития может привести к печальным последствиям для любого человека, будь он фермером или главой компании. Если вы попросите человека подумать, как бы он распорядился своим бюджетом, если бы ему внезапно понадобился дорогостоящий ремонт автомобиля на сумму в несколько тысяч долларов, а затем предложите ему ответить на IQ-тест, вы увидите, что уровень IQ бедных людей сильно пострадает от предложенной им ранее задачи. На IQ богатых людей эта задача никак не подействует. (Размышления о ремонте автомобиля стоимостью несколько сотен долларов не влияет на результаты теста как бедных, так и богатых людей.)
Экономист Радж Четти — один из тех, кто наиболее активно подталкивает экономистов к тому, чтобы они искали возможности проводить естественные эксперименты, которые могут проверить экономические гипотезы. Важна ли квалификация учителя в долгосрочной перспективе? Мы можем оценить разницу между обучением у учителя высокой квалификации и у намного менее профессионального учителя по средним показателям успеваемости данного класса до и сразу после начала обучения у высокопрофессионального учителя (или сразу после его ухода). Например, каждая группа третьеклассников в данной школе показывает одни и те же посредственные результаты контрольных тестов год за годом до прихода высококвалифицированного учителя. (Возможно, его предшественник покинул школу из-за проблем со здоровьем.) Если результаты тестов в третьих классах покажут значительное повышение успеваемости, которое сохраняется на протяжении работы этого учителя, тогда можно изучить последующее влияние этого улучшения на последующие успехи в учебе, процент поступления в университет и дохода, получаемого по окончании. Квалификация учителя учитывается при изучении всех этих переменных. Такие исследования считаются околоэкспериментальными, потому что те же самые классы, что становятся экспериментальными с приходом нового учителя, являются контрольными до его прихода. Распределение здесь не является случайным, но, когда распределение учителей оказывается явно удачным, мы получаем действительно стоящий научный эксперимент.
Экономист Рональд Фрайер провел ряд экспериментов, сыгравших важнейшую роль в испытании образовательных реформ с точки зрения экономики. Он провел несколько чрезвычайно ценных экспериментов в области образования, продемонстрировав, к примеру, что финансовое стимулирование практически не оказывает влияния на успеваемость учеников из среды национальных меньшинств. Точно так же оно не оказывает влияния на качество работы учителей — если только здесь не затрагивается боязнь потерь, когда деньги учителю выплачиваются в начале учебного года с условием, что если успеваемость учеников не улучшится, то полученные деньги придется вернуть. Между прочим, это открытие — великолепный пример того, что угроза потенциальной потери имеет куда большее значение, чем получение потенциальной выгоды, что мы обсуждали в главе 5. Фрайер также внес большой вклад в проведение очень успешных экспериментов среди детей из Гарлема, которые в итоге привели к заметному улучшению успеваемости учеников афроамериканского происхождения.
Все мы не без греха
Боюсь, пришло время признать, что психологи точно так же неправильно применяют АМР, как и другие ученые, изучающие поведение людей.
Часто приходится читать о фактах такого типа. Сотрудники компаний, выплачивающих щедрое денежное пособие по уходу за ребенком, чувствуют себя более удовлетворенными своей работой, чем сотрудники компаний, где не выплачивают такого пособия. Корреляция подтверждается тем, что, согласно АМР, чем лучше в компании пособия по уходу за ребенком, тем больше сотрудники довольны своей работой, и этот факт остается неизменным при «контролировании» размера компании, размера зарплаты сотрудника, взаимоотношений с коллегами и непосредственным начальником и т.д. Но у этого анализа есть три проблемы. Во-первых, измеряется ограниченное количество переменных, и если одна или несколько из них измерены неточно или если существуют другие переменные, не учтенные исследователями, но коррелирующие с уровнем пособия по уходу за ребенком и удовлетворением от работы, то, может быть, именно они и объясняют удовлетворенность от работы, а вовсе не это пособие. Во-вторых, нет особого смысла рассматривать уровень пособия по уходу за ребенком отдельно от общей ситуации, в которой находится сотрудник. Если компания проявляет щедрость в данном вопросе, то скорее всего в политике компании есть много и других положительных моментов. Если из сложного клубка взаимосвязанных переменных вытянуть одну, а несколько других попытаться «контролировать», вряд ли это оградит нас от ошибок. В-третьих, данный вид анализа нисколько не защищает от гало-эффекта, который мы обсуждали в главе 3. Если человеку нравится его работа, то ему будет казаться, что и туалеты в офисе чище, и сотрудники приятнее, и дорога до работы менее утомительна, чем тому, кому его работа не нравится. Любовь слепа, и любовь к работе немногим зорче.
Думаю, такие проблемы проще рассматривать, анализируя личность человека. Если взять одну-единственную черту характера и предположить, что между ней и другими чертами характера нет особенной связи, это ничего не даст. Психологи часто сообщают об открытиях а-ля «Самооценка коррелирует с успехами в учебе с учетом экстравертности, уровня самоконтроля и склонности к депрессии» и т.д. Однако давно установлено, что низкая самооценка и другие нежелательное состояние, например депрессия, коррелируют друг с другом. Когда человек подавлен, он вряд ли высоко ценит себя в эту минуту, и, соответственно, когда человек плохо думает о самом себе, это портит ему настроение. Было бы неестественно рассматривать самооценку как нечто, полностью отделенное от состояния депрессии. Трудно представить, чтобы люди говорили: «Мне кажется, я потрясающий. Жаль, что я сейчас так расстроен, что не могу судить объективно» или «Я никогда еще не был так счастлив, как сейчас! Жаль, что я такое ничтожество!». Конечно, строго говоря, услышать можно всякое, но сама несочетаемость этих утверждений говорит о том, насколько тесно связаны самооценка и депрессивное состояние. Эти два аспекта нельзя полностью отделить друг от друга.
Многим из моих коллег-психологов не понравится вывод, к которому я подвожу. Влияет ли самооценка на успеваемость с учетом депрессивного состояния; влияет ли экстравертность на популярность студенческих союзов с учетом невротичности студента; влияет ли количество дружеских объятий, которые получает человек за день, на сопротивляемость его организма инфекциям с учетом возраста, уровня образования и частоты общения с другими людьми и т.д. — на такие вопросы АМР попросту не может дать ответа. Что природа сочетала, того анализ множественной регрессии да не разлучает.
Отсутствие корреляции не означает отсутствия причинно-следственной связи
Корреляция не доказывает наличие причинно-следственной связи. Однако проблема с корреляционными исследованиями на самом деле еще глубже. Отсутствие корреляции не означает отсутствия причинно-следственной связи — и игнорирование этого факта также часто ведет к ошибкам.
Увеличивают ли тренинги по культурным различиям, проводимые внутри компаний, количество принимаемых на работу женщин и представителей меньшинств? В рамках исследования, изучавшего этот вопрос, были опрошены менеджеры по персоналу 700 американских компаний. Им задали вопрос о том, проводятся ли в их компании такие тренинги. Кроме того, было проверено количество сотрудников — представителей национальных меньшинств, с помощью данных Комиссии равных возможностей найма на работу. Оказалось, что проведение в компании тренингов по культурным различиям никак не было связано с «долей белых женщин, черных женщин и черных мужчин на управленческих должностях». Авторы исследования сделали вывод, что такие тренинги не влияют на уровень найма представителей меньшинств.
Но постойте-ка. Наличие или отсутствие такого тренинга — это произвольная переменная. Организация, которая проводит такие тренинги, может быть меньше заинтересована в найме женщин и представителей меньшинств, чем другая организация, которая находит более эффективные способы увеличения найма таких сотрудников. На самом деле компании могут просто-напросто прикрывать подобными тренингами свою привычную политику найма сотрудников. А корпорации, где тренинги не проводятся, могут нанимать больше представителей меньшинств, создав специальную рабочую группу, или, как практикуется в армии США, сделать продвижение по службе военнослужащих из числа меньшинств одним из критериев оценки успешности их начальства. Чтобы доказать эффективность тренингов по культурным различиям, нужно провести рандомизированный эксперимент. Мы должны побороть в себе напрашивающийся сам собой вывод, что переменная А не имеет причинно-следственной связи с Б потому, что между ними нет корреляции.
Дискриминация: чему верить — статистике или подслушанным разговорам?
Для начала позвольте заметить, что с помощью статистики невозможно доказать, присутствует ли в данной организации какая-либо дискриминация. Часто попадаются статьи о «невидимых барьерах», ограничивающих карьерное продвижение женщин в тех или иных областях или о непропорциональном количестве мальчиков и учеников из числа меньшинств, которых временно исключают из школ. Публикации говорят о признаках дискриминации, а часто и прямо обвиняют в ней. Но одними цифрами нельзя ничего доказать. Нам не известно наверняка, что одинаковое число женщин и мужчин имели равную квалификацию, или желание стать партнером в юридической фирме, или занять руководящую должность в организации. Кроме того, у нас есть некоторые причины полагать, что мальчики и девочки в разной степени склонны к проступкам, за которые исключают из школы. Не так давно считалось, что меньшее количество женщин среди аспирантов и на университетских кафедрах обусловлено дискриминацией. И дискриминация, конечно, была. Я знаю — я сам оттуда. Я помню все эти мужские советы о приеме в аспирантуру и на кафедру. «Бери лучше парня; девушки все равно отсеются». Подслушанные разговоры подтверждали то, что не могли доказать голые статистические данные о соотношении между мужчинами и женщинами в университетах.
Однако в наш дни 60% выпускников колледжей — женщины, и именно женщины составляют большинство будущих юристов и врачей, а также аспирантов в сфере гуманитарных наук, социологии и биологии. В Мичиганском университете, где я преподаю, две трети доцентов на кафедрах — женщины (и они получают постоянные профессорские позиции наравне с мужчинами).
Подтверждает ли эта статистика дискриминацию мужчин? Вовсе нет. Могу заверить, что по крайней мере в моем университете такая дискриминация не найдет поддержки. Напротив, мы так часто сталкиваемся с перспективой того, что в аспирантуру в подавляющем большинстве будут поступать женщины, что начинаем подумывать о поблажках при поступлении для мужчин, хотя, конечно, мы никогда не делали этого сознательно, в этом я уверен.
Однако статистика послевузовского образования не мешает некоторым людям все еще настаивать на том, что в области точных наук женщины по-прежнему подвергаются дискриминации. Недавно я прочитал в одной книге, что доступ к физике «заблокирован» для женщин. В отсутствие иных доказательств, кроме чисто статистических данных, это утверждение никак не может считаться правильным.
Необязательно подслушивать чужие разговоры, чтобы с уверенностью утверждать, что дискриминация существует. Это могут доказать эксперименты. Запрашивают ли продавцы автосалонов более высокую цену с женщин и представителей меньшинств, чем с белых мужчин? Отправьте трех таких покупателей в компанию Mammoth Motors и посмотрите, какую им предложат цену. Такое исследование было проведено, и оказалось, что белому мужчине действительно предлагают самую низкую цену.
Получают ли люди приятной наружности различные поблажки в жизни? Множество исследований показывают, что да. Прикрепите фотографию предполагаемого малолетнего преступника к делу и посмотрите, какой приговор вынесет студент, играющий в эксперименте роль «судьи». Если ребенок симпатичный, «судье» кажется, что в будущем из него может вырасти порядочный человек и законопослушный гражданин, а потому ему выносят относительно мягкий приговор. Если ребенок некрасив, то ему вынесут приговор по всей строгости.
«Жизнь несправедлива», — сказал Джон Кеннеди, а эксперименты могут лучше всего продемонстрировать нам, насколько жизнь более несправедлива к одним группам людей, чем к другим.
Выводы
Анализ множественной регрессии (АМР) устанавливает связь между независимой переменной и зависимой переменной с учетом связи между независимой переменной и другими переменными, а также связи этих других переменных с зависимой переменной. Этот метод может указывать на причинно-следственную связь, только если все возможные причинно-обусловленные факторы влияния установлены и измерены должным образом с помощью надежных методов. На практике такие условия чрезвычайно редки.
Фундаментальной проблемой АМР, так же как и всех иных корреляционных методов исследования, является самоотбор. Исследователь не может задавать значение независимой переменной для каждого отдельного случая. А это значит, что все переменные, которые коррелируют с независимой (изучаемой) переменной, будут оказывать влияние на результат. В большинстве случаев у нас не получается идентифицировать каждую из этих посторонних переменных. Исследуя поведение, мы практически никогда не можем быть уверены в том, что обнаружили все переменные, имеющие отношение к независимой переменной.
Вопреки сказанному выше, метод АМР часто полезен. Иногда значения независимой переменной невозможно менять. Нельзя изменить чей-то возраст. Даже при проведении эксперимента такой факт прибавляет нам уверенности в том, что взаимосвязь, демонстрируемая в рамках эксперимента, основана на естественных процессах. Кроме того, АМР в целом намного дешевле, чем экспериментальные исследования, и может выявить взаимосвязи, которые будут важны для экспериментального исследования.
Когда правильно проведенный эксперимент дает вам один результат о некой корреляции, а АМР дает совершенно другой результат, верить следует результату эксперимента. Разумеется, неправильно проведенный эксперимент скажет вам не больше, чем АМР, а то и меньше.
Основная проблема АМР заключается в том, что обычно такой анализ подразумевает, что независимые переменные являются составляющими элементами единого целого, но при этом каждая переменная сама по себе логически не связана со всеми другими. Как правило, это не так, по крайней мере во всем, что касается поведения человека. Самооценка и депрессивность внутренне связаны друг с другом. Сам по себе вопрос, влияет ли одна из таких переменных на зависимую переменную, будучи свободной от влияния другой переменной, будет совершенно излишним.
Как корреляция не доказывает наличие причинно-следственной связи, так и отсутствие корреляции не доказывает отсутствия причинно-следственной связи. Ложные отрицательные выводы могут точно так же быть результатом АМР, как и ложные положительные — из-за невидимой паутины причинно-следственных связей, которую мы не смогли обнаружить.