Что можно сказать о ситуации, когда корреляция между двумя переменными все-таки существует? Что это означает на самом деле?
Для упрощения задачи давайте начнем с простейшего типа переменной — бинарной переменной, принимающей только два значения. Во многих случаях бинарная переменная представляет собой ответ на общий вопрос: «Вы состоите в браке?», «Вы курите?», «Вы состоите или когда-либо состояли в коммунистической партии?»
Когда вы сравниваете две бинарные переменные, корреляция принимает особенно простую форму. Например, утверждение, что существует отрицательная корреляция между семейным статусом и курительным статусом, означает только то, что семейные люди курят с меньшей долей вероятности, чем средний человек. Или, если сформулировать это иначе, курильщики вступают в брак с меньшей долей вероятности, чем обычные люди. Придется немного поразмышлять, чтобы убедить себя в том, что это одно и то же! Первое утверждение можно записать в виде такого неравенства:
семейные курильщики / все семейные люди < все курильщики / все люди
Второе утверждение можно записать так:
семейные курильщики / все курильщики < все семейные люди / все люди
Если умножить обе стороны каждого неравенства на общий знаменатель (все люди) × (все курильщики), становится очевидным, что эти два утверждения представляют собой разные способы выразить одну и ту же мысль:
(семейные курильщики) × (все люди) < (все курильщики) × (все семейные люди).
Точно так же, если существовала бы положительная корреляция между курением и вступлением в брак, это означало бы, что семейные люди были бы курильщиками с большей вероятностью, чем средний человек, а курильщики с большей вероятностью состояли бы в браке по сравнению со средним человеком.
Но здесь сразу возникает одна проблема. Безусловно, существует совсем малая вероятность, что доля курильщиков среди семейных людей в точности такая же, что и доля курильщиков во всей численности населения. Следовательно, при отсутствии невероятного совпадения между семейным статусом и курением существует корреляция — положительная или отрицательная. То же самое можно сказать о сексуальной ориентации и курении, о гражданстве США и курении, о принадлежности первой буквы имени ко второй половине алфавита и курении и так далее. Корреляция с курением будет обнаружена во всем, в том или ином направлении. Это та же проблема, с которой мы столкнулись в : нулевая гипотеза, строго говоря, почти всегда является ошибочной.
Если мы разведем руками и скажем: «Все коррелировано со всем!» — это не позволит нам узнать ничего нового. Поэтому мы не сообщаем обо всех без исключения случаях корреляции. Когда вы прочитаете сообщение, что существует корреляция между одним событием и другим, на самом деле подразумевается, что это достаточно сильная корреляция, чтобы о ней стоило говорить. Как правило, речь идет о корреляции, прошедшей проверку статистической значимости. Как мы уже видели, проверка статистической значимости сопряжена со многими опасностями, но она по крайней мере заставляет статистика задуматься и сказать: «Наверное, что-то здесь происходит».
Но что именно? Здесь мы подошли к вопросу, требующему особого внимания. Существует отрицательная корреляция между супружеством и курением, это факт. Как правило, этот факт формулируют следующим образом:
Если вы курильщик, меньше шансов, что вы состоите в браке.
Однако одно небольшое изменение существенно меняет смысл этого утверждения:
Если вы были бы курильщиком, у вас было бы меньше шансов состоять в браке.
На первый взгляд кажется странным, что изменение предложения с изъявительного на сослагательное наклонение может так сильно изменить смысл сказанного. Тем не менее в первом предложении просто говорится о том, что происходит. Второе предложение затрагивает гораздо более тонкий вопрос: что было бы, если мы изменили бы что-то в окружающем мире? Первое предложение выражает корреляцию; второе подразумевает каузальность. Как мы уже говорили, это не одно и то же. Математическое определение корреляции сформировалось еще сто лет назад, после публикации работ Гальтона и Пирсона. Однако постановка идеи каузальности на твердую математическую основу — гораздо более трудная задача.
Наше понимание корреляции и каузальности носит неустойчивый характер. Порой интуиция помогает вам уловить суть этих концепций при одних обстоятельствах, но не позволяет сделать это при других. Когда мы говорим, что существует корреляция между ЛПВП и снижением риска сердечно-сосудистых заболеваний, фактически мы утверждаем следующее: «Если у вас более высокий уровень холестерина ЛПВП, у вас с меньшей долей вероятности будет сердечный приступ». Трудно не подумать о том, что ЛПВП что-то делает — что молекулы вещества, о котором идет речь, в буквальном смысле слова служат причиной улучшения здоровья сердечно-сосудистой системы, скажем, «соскабливая» липидные отложения на стенках сосудов. Если бы это действительно было так (то есть если бы одно только наличие большого количества ЛПВП приносило вам пользу), тогда было бы логичным предположить, что любое вмешательство, направленное на повышение уровня ЛПВП, сокращает риск сердечно-сосудистых заболеваний.
Однако корреляция между ЛПВП и сердечно-сосудистыми заболеваниями может быть обусловлена другими причинами — скажем, какой-либо другой фактор, который мы не измерили, приводит и к повышению ЛПВП, и к снижению риска сердечно-сосудистых осложнений. Если это действительно так, тогда препарат, повышающий уровень ЛПВП, может предотвращать или не предотвращать сердечные приступы: если данный препарат воздействует на ЛПВП посредством этого загадочного фактора, тогда это, по всей вероятности, поможет вашему сердцу, но, если он повышает уровень ЛПВП каким-то другим способом, тогда за результат поручиться нельзя. Такая же ситуация и в случае Тима и Сары. Существует корреляция между их финансовыми результатами, но не потому, что фонд Тима способствует повышению курса акций Сары, или наоборот. Причина в том, что существует некий загадочный фактор (акции компании Honda), который влияет на результаты и Тима, и Сары. Клинические исследователи называют это проблемой суррогатной точки клинической эффективности. Проверка воздействия препарата на среднюю продолжительность жизни потребовала бы больших затрат времени и денег, поскольку для того, чтобы определить продолжительность жизни человека, пришлось бы подождать, когда он умрет. Уровень ЛПВП — это и есть суррогатная точка клинической эффективности, легко поддающийся проверке биомаркер, который предположительно равносилен утверждению «долгая жизнь без сердечных приступов». Однако корреляция между ЛПВП и отсутствием сердечно-сосудистых заболеваний может не быть признаком наличия причинно-следственной связи.
Провести различие между корреляцией, обусловленной причинно-следственными связями, и корреляцией, в которой такие связи отсутствуют, — это невероятно трудная задача, даже в случаях, которые могут показаться очевидными, как в случае взаимосвязи между раком легких и курением. На рубеже ХХ столетия рак легких был крайне редким заболеванием. К 1947 году на эту болезнь приходилась пятая часть смертей от рака среди британских мужчин: она убивала в пятнадцать раз больше людей, чем несколько десятилетий назад. Сначала многие исследователи объясняли это тем, что диагностика рака легких стала более эффективной, чем раньше, однако вскоре стало очевидно, что количество случаев этого заболевания увеличивается слишком сильно и слишком быстро, чтобы можно было отнести это на счет диагностики. Рак легких действительно становился более распространенным заболеванием, но никто не знал наверняка, что тому виной. Может быть, это дым от заводов, может быть, повышенный уровень выхлопных газов или, может быть, какое-то вещество, которое даже не считалось токсичным. А может быть, причина в курении сигарет, популярность которых резко увеличилась за тот же период.
В начале 1950-х годов в Англии и Америке были проведены крупные исследования, показавшие наличие сильной зависимости между курением сигарет и раком легких. Среди некурящих это заболевание встречалось по-прежнему редко, но в случае курящих риск был гораздо выше. В знаменитой статье Долла и Хилла, опубликованной в 1950 году, было сказано, что из 649 страдающих раком легких пациентов мужского пола из двадцати лондонских клиник только двое были некурящими. Это не такие уж впечатляющие цифры, как может показаться по современным стандартам: в Лондоне середины столетия курение было чрезвычайно распространенной привычкой, а некурящих было гораздо меньше, чем сейчас. Но даже несмотря на это в группе из 649 пациентов мужского пола, заявивших о проблемах со здоровьем, не имеющих отношения к раку легких, некурящими были двадцать семь человек, то есть гораздо больше двух. Кроме того, чем больше курили люди, тем сильнее была эта связь. Из всех больных раком легких 168 пациентов выкуривали более чем двадцать пять сигарет в день, тогда как среди больных, госпитализированных по другим причинам, только восемьдесят шесть пациентов курили так много.
Данные Долла и Хилла показывали наличие корреляции между раком легких и курением; связь между ними не была строго детерминированной (некоторые заядлые курильщики не страдали раком легких, и в то же время эта болезнь поражала некоторых некурящих), но эти два явления не были независимыми. Связь между ними относилась к той неопределенной промежуточной зоне, которую впервые обнаружили Гальтон и Пирсон.
Утверждение о наличии корреляции существенно отличается от объяснения. Исследование Долла и Хилла не показывает, почему курение вызывает рак легких; вот что они пишут: «Эта связь имела бы место и в случае, если рак легких был бы причиной курения или если оба свойства были бы конечным результатом некой общей причины». Мысль о том, что рак легких вызывает склонность к курению, как пишут Долл и Хилл, не имеет под собой оснований: опухоль не может вернуться назад во времени и вызвать у человека привычку выкуривать по пачке сигарет в день. Однако проблема общей причины вызывает большее беспокойство.
Наш старый друг Рональд Эйлмер Фишер, основатель современной статистики, весьма скептически относился именно к такой точке зрения на существование связи между табачным дымом и злокачественной опухолью. Фишер был естественным интеллектуальным преемником Гальтона и Пирсона; на самом деле в 1933 году он сменил Пирсона на посту руководителя кафедры евгеники Гальтона при Университетском колледже Лондона. (Из уважения к чувствительности современных людей к этой теме это учреждение называют сейчас кафедрой генетики Гальтона.)
Фишер считал, что не стоит поспешно отказываться от теории, что рак вызывает курение:
Возможно ли в таком случае, что рак легких (другими словами, предраковое состояние, которое должно существовать и известно, что оно существует у тех, у кого впоследствии развивается явный рак легких) — это одна из причин курения? Думаю, этого не следует исключать. Я не считаю, что мы знаем достаточно, для того чтобы утверждать, будто причина именно в этом. Тем не менее предраковое состояние сопровождается легким хроническим воспалением. Причины курения сигарет можно определить в какой-то мере на примере ваших друзей, и я думаю, вы согласитесь, что даже небольшой повод для раздражения (легкое разочарование, неожиданная задержка, мягкий отказ, срыв планов) приводит к тому, что они достают сигарету и таким способом получают небольшую компенсацию за мелкие жизненные неприятности. Следовательно, наличие хронического воспаления в одной из частей тела вполне можно связать с тем, что человек скорее курит, чем не курит, или курит чаще, чем обычно. Это своего рода помощь, которая может стать настоящим утешением для того, кто через пятнадцать лет может заболеть раком легких. И отнять у этого бедолаги его сигареты — это все равно, что отнять посох у слепого. Это сделало бы и без того несчастного человека еще более несчастным.
Здесь можно увидеть твердую позицию блестящего и скрупулезного статистика по поводу того, что все возможные варианты требуют должного рассмотрения, в том числе пристрастие курильщиков к этой привычке на протяжении всей жизни. (Кое-кто увидел в этом влияние работы Фишера в качестве консультанта в британской промышленной группе Tobacco Manufacturers’ Standing Committee; на мой взгляд, нежелание Фишера подтверждать наличие причинно-следственной связи соответствовало его общему статистическому подходу.) Предположение Фишера, что мужчины, принимавшие участие в исследовании Долла и Хилла, начали курить под воздействием предракового воспаления, так и не прижилось, однако его аргумент в пользу существования общей причины получил более широкое распространение. Фишер, в полном соответствии со своей академической должностью, был приверженцем евгеники; он считал, что генетические особенности во многом определяют нашу судьбу, а также что в эти щадящие с точки зрения эволюции времена над людьми высшего сорта нависла серьезная опасность смешения с теми, кто находится на более низком уровне развития. С точки зрения Фишера, было бы вполне естественно допустить, что существует общий генетический фактор (еще не установленный), который отвечает как за рак легких, так и за пристрастие к курению. Это утверждение может показаться достаточно дискуссионным. Но не забывайте: в то время предположение о развитии рака легких под воздействием курения опиралось на не менее таинственную основу: еще ни один химический элемент табака не обнаружил способность вызвать опухоль в лабораторных условиях.
Существует один изящный способ проверить влияние генетических факторов на курение посредством изучения близнецов. Будем говорить, что между близнецами есть «совпадение», если они либо оба курят, либо нет. Можно предположить, что такое совпадение — довольно распространенное явление, поскольку близнецы обычно растут в одном доме, их воспитывают одни и те же родители, в одной культурной среде, и влияние всего этого вы на самом деле видите в близнецах. Однако однояйцевым и двуяйцевым близнецам такие общие характеристики свойственны в равной степени; следовательно, если совпадение между однояйцевыми близнецами бывает чаще, чем между двуяйцевыми, это свидетельствует, что генетические факторы оказывают определенное влияние на пристрастие к курению. Фишер обнародовал некоторые результаты неопубликованных исследований, направленных на обнаружение этого эффекта, а более поздние работы подтвердили его интуитивную догадку: по всей вероятности, склонность к курению зависит от ряда наследственных факторов.
Безусловно, нельзя утверждать, что впоследствии те же гены вызывают рак легких. Сейчас нам известно гораздо больше о раке и о том, какую роль в его развитии играет табак. Тот факт, что курение вызывает рак, не подлежит сомнению. Тем не менее трудно не относиться с некоторым пониманием к подходу Фишера «давайте не делать поспешных выводов». Воспринимать корреляцию с недоверием — это правильно. Эпидемиолог Ян Ванденброке писал по поводу статей Фишера о курении следующее: «К моему большому удивлению, я обнаружил хорошо написанные и убедительные работы, которые могли бы стать классическим примером безупречной логики и четкого толкования данных и аргументов, если бы только авторы находились на правильной стороне».
Ученые в 1950-х годах постепенно пришли к консенсусу по вопросу о раке легких и курении. Правда, еще не был обнаружен биологический механизм возникновения опухоли под воздействием табачного дыма, и не было аргументов в пользу связи между курением и раком, которые не опирались бы на зафиксированные случаи корреляции. Однако в 1959 году было обнаружено так много подобных случаев корреляции и было исключено так много факторов, искажающих полученные результаты, что главный врач государственной службы здравоохранения США Лерой Берни посчитал нужным заявить: «В настоящее время есть весомые доказательства того, что курение — основной фактор повышения уровня заболеваемости раком легких». Но даже после официального заявления чиновника такая точка зрения не была бесспорной. Всего через несколько недель редактор Journal of the American Medical Association Джон Тэлботт открыл в редакционной статье ответный огонь: «Ряд крупных специалистов, изучивших те же доказательства, о которых говорил доктор Берни, не согласны с его выводами. Ни у сторонников, ни у противников теории курения нет достаточных доказательств, на основании которых можно было бы занять однозначную официальную позицию. До тех пор пока в ходе предстоящих исследований не будут получены окончательные результаты, врач может выполнять свои обязанности, внимательно наблюдая за ситуацией, отслеживая факты и давая пациентам рекомендации на основании оценки этих фактов». Тэлботт, как и Фишер до него, обвинял Берни и его единомышленников в том, что они, если говорить с научной точки зрения, бегут впереди паровоза.
Остроту этой дискуссии даже в научных кругах иллюстрирует примечательная работа историка медицины Джона Харкнесса. После тщательного изучения архивных документов он пришел к выводу, что доклад, подписанный главным врачом США, в действительности был написан большой группой ученых Министерства здравоохранения, а сам Берни почти не принимал прямого участия в этой работе. Что касается ответной статьи Тэлботта, ее также написал не он сам, а конкурирующая группа ученых Министерства здравоохранения! То, что казалось борьбой между правительственным бюрократическим аппаратом и медицинскими учреждениями, на самом деле было противостоянием между различными группами ученых, перенесенным на публичный экран.
Мы знаем, чем закончилась эта история. В начале 1960-х годов преемник Берни на посту главного врача США Лютер Терри сформировал независимую экспертную комиссию по вопросу курения и здоровья, а в январе 1964 года в прессе по всей стране были опубликованы выводы этой комиссии, на фоне которых доклад Берни выглядел довольно робким.
С учетом постоянно растущего количества доказательств из разных источников комиссия пришла к выводу, что курение сигарет приводит к существенному увеличению количества смертей от определенных заболеваний и к повышению общего уровня смертности… В Соединенных Штатах Америки курение сигарет представляет весьма серьезную опасность для здоровья, что должно служить основанием для проведения надлежащих корректирующих мероприятий (выделено автором доклада. — Д. Э.).
Что изменилось? До 1964 года связь между курением и раком неизменно обнаруживало одно исследование за другим. Заядлые курильщики страдали от рака чаще, чем те люди, которые курили меньше; кроме того, опухоль чаще всего возникала в местах контакта между табаком и человеческой тканью: у тех, кто курил сигареты, развивался рак легких, а у тех, кто курил трубки, — рак губы. Бывшие курильщики были в меньшей степени подвержены опухолевым заболеваниям по сравнению с теми курильщиками, которые не отказались от этой привычки. Сочетание всех этих факторов привело к тому, что созданная главным врачом США комиссия сделала однозначный вывод: курение не просто связано с раком легких, а вызывает рак легких, а сокращение потребления табака скорее всего привело бы к увеличению продолжительности жизни американцев.
В альтернативной вселенной, в которой последующие исследования по вопросу курения привели бы к получению других результатов, мы могли бы обнаружить, что на первый взгляд странная теория Фишера верна и курение является следствием рака, а не наоборот. Это стало бы далеко не самым крупным изменением курса в медицинской науке. Но что дальше? Главный врач опубликовал бы пресс-релиз, в котором было бы сказано: «Извините, все могут вернуться к курению». Между тем, табачные компании понесли бы огромные убытки, а миллионы курильщиков отказались бы от миллиардов сигарет, которые могли бы доставить им удовольствие. И все это только потому, что главный врач объявил фактом то, что было не более чем хорошо обоснованной гипотезой.
Но какой была альтернатива? Представьте себе, что следовало бы предпринять, чтобы действительно с абсолютной уверенностью сделать вывод, что курение вызывает рак легких. Вам пришлось бы собрать большую группу подростков, случайным образом выбрать половину из них и заставить этих подростков регулярно курить сигареты на протяжении предстоящих пятидесяти лет, тогда как остальные подростки должны были бы все это время воздерживаться от курения. Джерри Корнфилд, один из первопроходцев в области изучения курения, сказал о таком эксперименте, что его «можно придумать, но трудно осуществить». Но даже если такой эксперимент можно было бы провести, он нарушил бы все существующие этические нормы в отношении исследований с участием людей в качестве испытуемых.
У создателей государственной политики нет такой роскоши, как неопределенность, которая есть у ученых. Им приходится вырабатывать наиболее вероятные предположения и принимать решения на их основе. Когда эта система работает (а она бесспорно сработала в случае с табаком), ученые и творцы политики действуют согласованно: ученые определяют приемлемую степень неопределенности, а творцы политики принимают решения, как следует действовать в условиях такой неопределенности.
Порой это приводит к ошибкам. Мы уже говорили о случае с заместительной гормональной терапией, когда под влиянием обнаруженных корреляций на протяжении длительного времени считалось, что подобная терапия защищает женщин от сердечно-сосудистых заболеваний после менопаузы. Текущие рекомендации, основанные на результатах последующих рандомизированных экспериментов, в той или иной мере носят противоположный характер.
Правительство США развернуло в 1976 году, а затем в 2009 году масштабные и дорогостоящие кампании по вакцинации против свиного гриппа, каждый раз получая от эпидемиологов заверения в том, что текущий штамм с большой вероятностью может вызвать катастрофическую пандемию. На самом деле оба случая эпидемии гриппа были довольно серьезными, но далеко не катастрофическими.
В таких случаях легко критиковать творцов политики за то, что они позволили своим решениям опередить науку. Но все не так просто. Не всегда неправильно быть неправым.
Как такое может быть? Быстрый расчет ожидаемой ценности, подобный тому, что мы делали в третьей части книги, поможет объяснить этот на первый взгляд парадоксальный вывод. Предположим, вы рассматриваете возможность дать людям рекомендации по поводу здоровья — например, что им следует прекратить есть баклажаны, поскольку потребление баклажанов сопряжено с небольшим риском развития внезапной катастрофической сердечной недостаточности. Этот вывод основан на результатах ряда исследований, в ходе которых было установлено, что среди людей, потребляющих баклажаны, немного выше вероятность внезапной смерти, чем среди тех, кто не ест баклажаны. Однако у нас нет возможности провести рандомизированное контролируемое исследование, во время которого одну группу испытуемых мы заставляли бы есть баклажаны, а другой группе запретили бы делать это. Нам придется обходиться имеющейся информацией, которая отображает только корреляцию. Все, что нам известно, — это то, что у баклажанофилии и остановки сердечной деятельности может быть общая генетическая основа, однако не существует способа убедиться в этом.
Возможно, мы на 75% уверены в правильности своего вывода и что кампания против баклажанов спасала бы жизни тысячам американцев в год. Но существует также равная 25% вероятность, что наш вывод ошибочен, а в таком случае мы вынудили бы многих людей отказаться от любимого овоща, что в целом повлекло за собой менее здоровое питание и привело, скажем, к двум сотням дополнительных смертей в год.
Как всегда, мы получим ожидаемую ценность, умножив результат каждого возможного варианта развития событий на соответствующую вероятность, а затем определив сумму полученных значений. В данном примере мы получим следующее:
75% × 1000 + 25% × (−200) = 750 − 50 = 700
Следовательно, ожидаемая ценность нашей рекомендации составляет семь сотен спасенных жизней в год. Вопреки громким и хорошо оплаченным возражениям комиссии по баклажанам и несмотря на свою неуверенность, мы принимаем решение обнародовать свои рекомендации.
Помните: ожидаемая ценность отображает не то, чего мы на самом деле ожидаем, а скорее то, чего мы могли бы ожидать в среднем, если одно и то же решение принималось бы снова и снова. С одной стороны, решения в области здравоохранения отличаются от подбрасывания монеты; это нечто такое, что вы можете сделать только один раз. С другой стороны, баклажаны — отнюдь не единственная угроза со стороны среды обитания человека, оценку которой нам могут поручить. Может, в следующий раз наше внимание привлечет тот факт, что цветная капуста связана с артритом или электрические зубные щетки — с аутизмом. Если в каждом из этих случаев ожидаемая ценность вмешательства составляет семьсот жизней в год, мы должны использовать все возможности для такого вмешательства, каждый раз рассчитывая на то, что в среднем нам удастся сохранить семьсот жизней в год. В каждом отдельном случае мы, возможно, принесем больше вреда, чем пользы, но в целом нам удастся спасти много жизней. Подобно игрокам в лотерею в день перераспределения призового фонда, мы рискуем проиграть в любом конкретном случае, но почти наверняка выиграем в долгосрочной перспективе.
А что было бы, если мы придерживались бы более строгих критериев доказательности, отказываясь давать все эти рекомендации по той причине, что мы не уверены в своей правоте? Тогда жизни, которые мы могли бы спасти, были бы вместо этого потеряны.
Было бы замечательно, если мы могли бы присвоить точные, объективные значения вероятности ситуациям из реальной жизни, связанным со здоровьем, однако это невозможно. Это еще одно отличие взаимодействия между лекарственным препаратом и человеческим организмом от подбрасывания монеты или лотерейным билетом. Нам приходится работать с неточными, неопределенными вероятностями, отображающими степень нашей уверенности в истинности различных гипотез, — вероятностями, по поводу которых Рональд Фишер во всеуслышание заявлял, что это вообще не вероятности. Таким образом, мы не знаем и не можем знать точного значения ожидаемой ценности развертывания кампании против баклажанов, электрических зубных щеток или табака. Однако во многих случаях мы можем с уверенностью утверждать, что ожидаемая ценность имеет положительное значение. Тем не менее это не означает, что кампания наверняка принесет хорошие результаты; это означает только то, что общая совокупность всех кампаний такого рода со временем принесет больше пользы, чем вреда. Суть неопределенности состоит именно в том, что мы не знаем, какой из выбранных нами вариантов окажется полезным (как в случае борьбы с курением), а какой причинит вред (как в случае гормональной терапии). Однако одно можно сказать со всей определенностью: нежелание делать какие бы то ни было рекомендации на том основании, что они могут быть неправильными, — заведомо проигрышная стратегия. Это во многом напоминает совет Джорджа Стиглера чаще опаздывать на самолеты. Если вы никогда не даете советы, пока не уверены в их абсолютной правильности, вы даете недостаточно советов.
Тот факт, что корреляция может быть обусловлена необнаруженной общей причиной, уже создает путаницу, но это еще не все. Корреляция может также проистекать из общего следствия. Этот феномен известен как ошибка Берксона, по имени специалиста по медицинской статистике Джозефа Берксона, который объяснил нам в , как слепой расчет на p-значение может привести к выводу о том, что небольшая группа людей с участием альбиноса состоит из негуманоидов.
Сам Берксон, подобно Фишеру, весьма скептически относился к идее о наличии связи между табаком и раком. Берксон, будучи доктором медицины, представлял старую школу эпидемиологии и с большим недоверием воспринимал любые заявления, обоснование которых было скорее статистическим, чем медицинским. Он считал, что такие заявления представляют собой вторжение наивных теоретиков в ту область, которая по праву принадлежит медикам; по этому поводу он писал в 1958 году:
Рак — это биологическая, а не статистическая проблема. Статистики могут должным образом сыграть вспомогательную роль в объяснении его причин. Однако, если биологи позволят статистикам выступать в качестве третейских судей по биологическим вопросам, научная катастрофа неизбежна.
Особое беспокойство вызывал у Берксона тот факт, что потребление табака связывают не только с таким заболеванием, как рак легких, но и со многими другими болезнями, поражающими все системы организма человека. Для Берксона мысль о том, что табак оказывает столь радикальное губительное воздействие, была совершенно неправдоподобной:
Это все равно, что в процессе изучения лекарственного препарата от обычной простуды сделать вывод, что он не только облегчает насморк, но и лечит воспаление легких, рак и многие другие болезни. Ученый сказал бы в таком случае: «Должно быть, с этим методом исследования что-то не так».
Берксон, как и Фишер, был более склонен верить в так называемую конституциональную гипотезу, согласно которой относительное хорошее состояние здоровья некурящих можно объяснить существованием врожденных различий между людьми, которые не курят, и курильщиками:
Если от 85 до 95% населения относятся к числу курильщиков, тогда очевидно, что у незначительного меньшинства некурящих особая конституция. Не так уж невероятно, что в среднем они должны жить относительно дольше, а это подразумевает, что уровень смертности в этом сегменте населения сравнительно низкий. В конце концов, небольшая группа людей, которые успешно сопротивляются непрестанным уговорам и обусловливанию со стороны компаний, размещающих рекламу сигарет, — это стойкие люди, и если они способны противостоять такому напору, то у них не должно быть особых трудностей с предотвращением туберкулеза и даже рака!
Берксон выдвигал возражения и против результатов первоначального исследования Долла и Хилла, которое проводилось среди пациентов британских больниц. Он обратил внимание в 1938 году на то, что такой способ отбора пациентов может создать видимость связей, которых на самом деле нет.
Предположим, например, что вы хотите узнать, является ли высокое кровяное давление фактором риска заболевания диабетом. Для этого вы можете провести среди пациентов своей больницы опрос, цель которого — определить, где больше пациентов с высоким давлением, среди тех, кто не страдает диабетом, или среди диабетиков. К своему большому удивлению, вы обнаруживаете, что гипертония менее распространена среди пациентов, страдающих диабетом. В таком случае вы можете склоняться к выводу, что высокое кровяное давление защищает от развития диабета или как минимум от появления настолько тяжелых симптомов диабета, когда требуется госпитализация. Однако, прежде чем вы начнете рекомендовать своим пациентам из числа диабетиков увеличить потребление соленых закусок, проанализируйте следующую информацию:
1000 человек, входящих в генеральную совокупность;
300 человек, страдающих гипертонией;
400 человек, страдающих диабетом;
120 человек, страдающих и гипертонией, и диабетом.
Предположим, в нашем городке живет 1000 человек, из которых 30% страдают гипертонией и 40% страдают диабетом. (Обитатели нашего города любят как соленые, так и сладкие закуски.) Предположим, что между этими двумя условиями нет никакой связи, а значит, 30% из 400 диабетиков, или всего 120 человек, страдают также от высокого кровяного давления.
Если все больные обитатели города попали бы в больницу, тогда среди пациентов больницы было бы:
180 человек с гипертонией, но без диабета;
280 человек с диабетом, но без гипертонии;
120 человек с гипертонией и диабетом.
Из 400 лежащих в больнице диабетиков 120, или 30%, страдают также гипертонией. Однако из 180 пациентов без диабета все 100% имеют высокое кровяное давление! Было бы глупо делать из этого вывод, что гипертония предотвращает диабет. Между этими двумя состояниями существует отрицательная корреляция, но не потому, что одно из них приводит к отсутствию другого. Причина также не в существовании некоего скрытого фактора, который и поднимает кровяное давление, и помогает регулировать уровень инсулина в крови. Причина в том, что у этих двух состояний общее следствие, а именно — они оба приводят к тому, что человек попадает в больницу.
Проще говоря, если вы находитесь в больнице, то вы попали туда по какой-то причине. Если вы не диабетик, тогда больше вероятность того, что эта причина — высокое кровяное давление. Следовательно, то, что на первый взгляд кажется причинно-следственной связью между гипертонией и диабетом, на самом деле всего лишь статистический фантом.
Этот эффект может работать и в обратном направлении. В реальной жизни наличие двух болезней с большей долей вероятности может отправить вас в больницу, чем одна болезнь. Все 120 пациентов, которые являются одновременно и гипертониками, и диабетиками, могут оказаться в больнице, но 90% относительно здоровых людей, страдающих только одной болезнью, остаются дома. Более того, в больнице можно оказаться и по другим причинам: например, в первый снежный день года многие пытаются привести свои снегоочистители в порядок руками и в результате отрезают палец. В таком случае общая совокупность пациентов больницы может выглядеть так:
10 человек без диабета и гипертонии, но с отрезанным пальцем;
18 человек с гипертонией, но без диабета;
28 человек с диабетом, но без гипертонии;
120 человек с гипертонией и диабетом.
Теперь после проведения исследования в больнице вы обнаружите, что 120 из 148 диабетиков, или 81%, страдают гипертонией. Однако только 18 из 28 пациентов, не страдающих диабетом, или 64%, страдают гипертонией. Создается впечатление, что гипертония увеличивает вероятность того, что у вас есть еще и диабет. Но это снова иллюзия: мы с вами установили всего лишь тот факт, что множество людей, попадающих в больницу, не является случайной выборкой из генеральной совокупности.
Ошибка Берксона имеет смысл и за пределами медицины; на самом деле эту концепцию можно применить за пределами тех областей, в которых характеристики поддаются точной количественной оценке. Возможно, вы обратили внимание на то, что среди всех мужчин в вашем списке возможных партнеров красивые мужчины, как правило, не бывают хорошими, тогда как хорошие не бывают красивыми. Может, причина в том, что симметричное лицо делает человека жестоким? Или в том, что хорошее обхождение с другими людьми делает человека некрасивым? Возможно. Но так не должно быть. Посмотрите на представленный ниже «большой квадрат мужчин».
В качестве рабочей гипотезы я допускаю, что все мужчины распределены по этому квадрату равномерно; в частности, здесь примерно в равном количестве присутствуют хорошие красивые мужчины, хорошие уродливые мужчины, плохие красивые мужчины и плохие уродливые мужчины.
Однако у хорошего характера и красоты есть общее следствие: эти качества относят мужчин к той группе, на которую вы обращаете внимание. Скажите честно: ведь вы даже не станете рассматривать в качестве кандидатов в спутники жизни уродов с плохим характером. Таким образом, внутри «большого квадрата» есть «небольшой треугольник приемлемых мужчин».
Теперь источник этого явления очевиден. Самые красивые мужчины в вашем треугольнике представляют весь диапазон личностей, от самых добрых до самых жестоких. В среднем они почти такие же хорошие, как среднестатистический мужчина во всей совокупности мужчин, которая, надо признать, не такая уж хорошая. Точно так же самые хорошие мужчины всего лишь в среднем красивы. Однако некрасивые парни, которые вам нравятся (они образуют крошечный сегмент треугольника), очень хорошие люди — они должны быть такими, иначе вы их вообще не заметите. Отрицательная корреляция между внешностью и личностью в вашем списке потенциальных партнеров абсолютно реальна. Однако, если вы попытаетесь улучшить телосложение своего парня, научив его вести себя плохо, вы станете жертвой ошибки Берксона.
По такому же принципу действует литературный снобизм. Вы знаете, почему популярные романы настолько ужасны? Причина не в том, что массовый читатель не ценит качество. Причина в том, что существует «большой квадрат романов», а также в том, что вы слышали только о тех романах, попадающих в «треугольник приемлемых романов», которые являются либо популярными, либо хорошими. Если вы заставите себя прочитать непопулярные романы, выбранные, по сути, случайным образом (я входил как-то в жюри по присуждению литературных премий, так что я реально занимался этим), вы обнаружите, что большинство из них, как и популярные романы, довольно низкого качества.
Безусловно, «большой квадрат» — слишком простой инструмент. Существует гораздо больше двух измерений, по которым вы можете оценивать своих возлюбленных или книги для чтения. Так что «большой квадрат» следовало бы назвать «большим гиперкубом». И речь идет только о ваших личных предпочтениях! Если вы попытаетесь понять, что происходит с населением в целом, вам понадобится разобраться с тем фактом, что разные люди по-разному определяют привлекательность; они могут присваивать разный вес разным критериям, или у них просто могут быть несовместимые предпочтения. Процесс агрегирования мнений, предпочтений и желаний множества разных людей создает очередной ряд трудностей, а это значит, что у нас появилась еще одна возможность позаниматься математикой. Ею мы и займемся.