Весной 2012 года в популярном журнале Science вышел сенсационный материал. В нем говорилось, что на основании результатов одного исследования, опирающегося на последние достижения науки, ученые сделали вывод, что когда самка дрозофилы (плодовой мушки) категорически отвергает ухаживания самца, он впадает в отчаяние и начинает топить горе в алкоголе. Газета The New York Times так описывала этот эксперимент в своей передовице: «Это были молодые самцы, ищущие любовных приключений. Будучи многократно отвергнутыми группой привлекательных самок, порхавших неподалеку, они поступили так же, как и многие мужчины в аналогичном случае, — запили с горя, используя алкоголь как болеутоляющее средство от неразделенной любви».
Это исследование дает нам возможность лучше уяснить работу системы вознаграждения, встроенную в мозг человека, что, в свою очередь, должно помочь в поиске новых стратегий борьбы с алкоголизмом и наркоманией. Один специалист по вопросам наркозависимости написал, что знакомство с результатами этого эксперимента позволило ему «заглянуть в далекое прошлое и увидеть там истоки системы вознаграждения, которая определяет фундаментальные модели поведения, такие как секс, еда и сон».
Поскольку я не являюсь экспертом в данной области, после прочтения публикации о неразделенной любви самцов дрозофилы у меня возникли две несколько различающиеся между собой реакции. Во-первых, появилось чувство ностальгии по временам студенческой молодости. Во-вторых, мой «внутренний исследователь» заинтересовался, каким образом самцам дрозофилы удавалось запить с горя. Может быть, где-то поблизости находился миниатюрный бар для мушек-дрозофил с широким ассортиментом фруктовых алкогольных напитков, которые подавал бармен-дрозофил, всегда готовый выслушать вас и посочувствовать вашему горю? Наверное, в баре ненавязчиво звучала музыка в стиле кантри, вызывавшая сильный прилив чувств у мушек-дрозофил, чьи жизненые мечты потерпели крушение?
В действительности все оказалось гораздо проще и прозаичнее. Одной группе самцов дрозофилы исследователи предоставили возможность беспрепятственно спариваться с самками, еще не подобравшими себе пару. Другой разрешили попытать счастья среди самок, которые уже подобрали себе пару и по этой причине были равнодушны к ухаживаниям других самцов. Затем обеим группам самцов дрозофилы были предложены на выбор питательные соломинки, содержащие две разные «диеты»: стандартное питание мушек-дрозофил плюс закваска и сахар, а также кое-что «покрепче»: закваска, сахар и 15-процентный раствор спирта. Самцы, которые провели несколько дней в бесплодных попытках найти себе пару среди безразличных к ним самок, оказались более склонны к «горячительному».
Какими бы легкомысленными ни казались эти выводы, они очень важны для человека, поскольку указывают на связь между стрессом, ответными химическими реакциями в мозгу человека и тягой к алкоголю. Тем не менее эти результаты — не триумф статистики. Это триумф данных, сделавших возможным этот относительно фундаментальный статистический анализ. Изюминка исследования заключалась в нахождении пути формирования двух групп — сексуально удовлетворенных и сексуально неудовлетворенных самцов дрозофилы — и последующем поиске способа сравнения их тяги к спиртному. После того как ученым удалось реализовать свой замысел, обработка соответствующих данных оказалась не сложнее, чем написание школьного реферата по математике.
Данные для статистики — примерно то же самое, что для выдающегося куортербека мощная линия блокирующих игроков. Сами по себе они не представляют особого интереса для зрителей, но без них выдающийся куортербек не сможет проявить свои способности. В большинстве книг по статистике предполагается, что вы используете надежные данные, точно так же как в любой кулинарной книге предполагается, что для приготовления блюд вы не станете покупать тухлое мясо или гнилые овощи. Даже самый замечательный рецепт не сделает вкусным блюдо, приготовленное из некачественных продуктов. То же касается статистики: даже самый изощренный анализ не принесет никакой пользы, если за основу взяты сомнительные данные. Отсюда выражение: «Мусор на входе — мусор на выходе». Данные заслуживают уважительного отношения — как и линия блокирующих игроков в американском футболе.
Как правило, данные выполняют одну из трех функций. Во-первых, нам может потребоваться определенная выборка данных, соответствующая характеристикам генеральной совокупности (так называемая репрезентативная выборка). Если наша задача — оценить отношение избирателей к конкретному политическому деятелю, нам понадобится опросить некоторую их часть (выборку) в соответствующем избирательном округе или в целом в стране. (Обратите внимание: нас не интересует выборка, которая представляла бы каждого, кто проживает на искомой территории; нам требуется выборка лиц, планирующих участвовать в голосовании.) Одно из самых фундаментальных положений статистики, более глубокому разъяснению которого мы уделим место в двух следующих главах, заключается в том, что выводы, сделанные на основе достаточно больших, надлежащим образом сформированных выборок, могут оказаться такими же точными, как и в случае, если бы мы попытались получить ту же информацию от всего населения.
Самый легкий способ собрать репрезентативную выборку большой генеральной совокупности — выбрать ее некоторое подмножество случайным образом. (Вы, наверное, испытаете потрясение, когда узнаете, что это называется простой случайной выборкой.) Ключом к данной методологии является то, что каждое наблюдение в соответствующей совокупности должно иметь одинаковые шансы на включение в выборку. Если вы собираетесь опросить случайную выборку, состоящую из 100 взрослых, на территории, где проживает 4328 взрослых, то ваша методология должна гарантировать, что у каждого из этих 4328 человек одинаковые шансы оказаться в числе той сотни, которую вы намерены опросить. Книги по статистике почти всегда иллюстрируют это положение вытаскиванием разноцветных шариков из урны. (В действительности это практически единственное место, где слово «урна» используется более или менее регулярно.) Если в какой-нибудь гигантской урне находится 60 000 голубых и 40 000 красных шариков, то наиболее вероятным составом выборки из 100 шариков, случайным образом вынутых из урны, было бы 60 голубых и 40 красных шариков. Если бы мы проделали такой эксперимент несколько раз, то, разумеется, всякий раз наблюдались бы какие-то отклонения (например, в одной выборке оказалось бы 62 голубых и 38 красных шариков, а в другой — 58 голубых и 42 красных шарика). Однако вероятность вытащить какую-либо произвольную выборку, которая по своему составу существенно отличалась бы от общего соотношения голубых и красных шариков, крайне мала.
Правда, на практике возникают кое-какие проблемы. Большинство совокупностей, которые могут представлять для нас интерес в реальной жизни, как правило, гораздо сложнее, чем урна с разноцветными шариками. Как, например, получить случайную выборку взрослого населения Америки, которую можно было бы использовать для проведения телефонного опроса? Даже такое элегантное на первый взгляд решение, как устройство для произвольного набора телефонных номеров, не лишено определенных недостатков. У некоторых людей (например, у малоимущих) может не быть телефона. Другие (обычно люди с высоким уровнем дохода) зачастую бывают не очень-то склонны отвечать на телефонные звонки, не представляющие для них непосредственного интереса. В главе 10 я опишу ряд стратегий, используемых компаниями, проводящими опросы, для решения проблем подобного рода, возникающих при формировании выборки (с появлением мобильной связи эти проблемы еще больше усложнились). Ключевая идея заключается в том, что надлежащим образом сформированная выборка будет полностью отражать структуру той совокупности, из которой она извлечена. Интуитивно вы можете представить себе это на примере варки супа в большой кастрюле. Если предварительно хорошенько размешать суп, то одна его ложка позволит вам составить достаточно полное представление о его вкусовых качествах.
В любом учебнике по статистике вы встретите значительно больше подробностей относительно методов формирования выборки. Компании, проводящие опросы и выполняющие маркетинговые исследования, тратят немало времени на поиск наиболее эффективных с экономической точки зрения способов получения надежных репрезентативных данных из разных совокупностей. На данном этапе вам необходимо уяснить несколько принципиальных положений. 1) Репрезентативная выборка — чрезвычайно важная вещь, поскольку она позволяет вам воспользоваться рядом наиболее мощных инструментов, которые имеются в распоряжении статистики. 2) Получить хорошую выборку гораздо сложнее, чем может показаться на первый взгляд. 3) Многие из самых ошибочных статистических утверждений обусловлены применением совершенно правильных статистических методов к плохим выборкам, а вовсе не наоборот. 4) Размер выборки имеет значение — чем она больше, тем лучше. Подробнее об этом мы поговорим в следующих главах, но уже сейчас вам должно быть интуитивно понятно, что крупная выборка дает возможность нивелировать любые аномальные отклонения. (Кастрюля супа, несомненно, более точно отражает его истинный вкус, чем ложка супа.) Важное предостережение: наращивание размера выборки не позволяет компенсировать ошибки, допущенные при выборе ее структуры (так называемую систематическую ошибку). Единственный способ устранения ошибок, порождаемых плохой выборкой, — использование хорошей выборки. Никакой суперкомпьютер или мудреная формула не помогут вам обеспечить правильность результатов общенационального телефонного опроса в преддверии президентских выборов, если в соответствующую выборку будут включены исключительно жители Вашингтона, потому что они обычно голосуют не совсем так, как остальная Америка, и даже если вы опросите не 1000, а 100 000 жителей этого округа, это не устранит данную фундаментальную проблему вашего опроса. Более того, применение крупной выборки, в которую вкралась систематическая ошибка, несомненно хуже небольшой выборки с такой же систематической ошибкой, поскольку это создает ложное мнение о надежности полученного результата.
Второе, что нам зачастую требуется от данных, — это чтобы они служили нам источником сравнения. Новое лекарство эффективнее нынешнего? Можно ли надеяться, что бывшие осужденные, освоившие в тюрьме какую-либо профессию, будут менее склонны к повторному совершению преступлений, чем бывшие осужденные, которые такую профессию не приобрели? Можно ли надеяться, что успеваемость учащихся престижных учебных заведений окажется лучше, чем учеников обычных государственных школ?
В подобных случаях наша задача — найти две группы субъектов, в целом похожих между собой — за исключением интересующего нас «параметра». В контексте социальных наук таким «параметром» может быть что угодно, от наличия у самца дрозофилы сексуальной неудовлетворенности до права налогоплательщика на скидку при уплате подоходного налога. Как и в случае любого применения научного метода, мы пытаемся изолировать влияние какого-то одного конкретного стороннего воздействия или фактора. В этом и состояла гениальность эксперимента с дрозофилами. Исследователям удалось найти способ создания контрольной (самцов, которые уже нашли себе пару) и «подопытной» (отвергнутых самцов) группы, а последующую разницу в отношении самцов к спиртному можно было объяснить их принадлежностью к той или иной группе.
В физических и биологических науках формирование контрольной и подопытной группы не представляет особой проблемы. Химики могут добиться небольших вариаций в нескольких пробирках, а затем изучить разницу в полученных результатах. Биологи могут использовать ту же методологию с помощью чашек Петри. Хотя должен заметить, что большинство экспериментов с животными проще провести, чем заставить дрозофил пить спиртное. Одну группу крыс можно заставить регулярно тренироваться на «беговой дорожке», а другую — нет, а затем сравнить их способность ориентироваться в лабиринте. Но когда речь идет о людях, все существенно усложняется. Чтобы правильно выполнить статистический анализ, зачастую требуется сформировать контрольную и подопытную группы, однако далеко не всегда люди согласны делать то же, что и крысы. (К тому же многим не нравится проделывать подобные эксперименты даже с лабораторными крысами.) Не вызовут ли периодически повторяющиеся сотрясения мозга у спортсменов серьезные неврологические проблемы в дальнейшем? Это действительно очень важный вопрос. От ответа на него зависит будущее хоккея на льду (и, возможно, других видов спорта). Однако сделать это невозможно путем проведения соответствующих экспериментов над людьми. Следовательно, пока (или если) мы не научим дрозофил носить шлемы и своевременно уворачиваться от силовых приемов, нам придется изыскивать другие способы изучения долговременных последствий травм головы.
Неизменной проблемой, которую приходится решать исследователям, работающим с «человеческим материалом», является создание контрольной и подопытной групп, отличающихся между собой только тем, что над одной группой проводится соответствующий опыт, а над другой — нет. Именно поэтому «золотым стандартом» исследования стала рандомизация, то есть процесс, посредством которого объекты изучения (люди, школы, больницы и т. д.) произвольным образом распределяются либо в подопытную, либо в контрольную группу. Мы не исходим из того, что все испытуемые идентичны. Напротив, вероятность — в который раз! — становится нашим союзником, и мы предполагаем, что рандомизация более-менее равномерно поделит все значимые характеристики между этими двумя группами — как те, которые нас интересуют, так и те, которые не интересуют или не подлежат измерению, например настойчивость или честность.
Третью причину сбора данных можно сформулировать так, как иногда любит объяснять свои поступки моя малолетняя дочь: «Потому что!» Иногда у нас нет четкого представления о том, для чего нам может понадобиться та или иная информация, но интуитивно мы предполагаем, что в какой-то момент она обязательно пригодится. Это похоже на работу следователя на месте преступления: ему необходимо собрать максимальное количество улик, чтобы впоследствии составить предельно полную картину преступления. Одни из этих материальных доказательств окажутся полезными, другие следствию не помогут. Если бы мы заранее знали наверняка, что именно нам пригодится, то предварительное расследование нам, наверное, было бы не нужно.
Вам, должно быть, известно, что курение и ожирение являются факторами риска, способствующими развитию сердечно-сосудистых заболеваний. Но, возможно, вы не знаете, что эту взаимосвязь помогло выявить обследование жителей города Фрамингема, проводившееся в течение длительного времени. Во Фрамингеме проживает около 67 000 человек, город расположен примерно в двадцати милях от Бостона. Обычным людям он известен как пригород Бостона с относительно дешевым жильем и удобным доступом к торговому центру Natick Mall, славящемуся своими высококачественными (и дорогостоящими) товарами. Что же касается ученых, то Фрамингем для них ассоциируется с исследованием под названием Framingham Heart Study — одним из самых успешных в истории современной науки, оказавшим огромное влияние на развитие медицины.
В ходе повторного исследования выполняется сбор информации о большой группе субъектов в разные моменты времени (например каждые два года). Одни и те же участники исследования могут периодически опрашиваться на протяжении десяти, двадцати или даже пятидесяти лет. Такой подход позволяет получить необычайно богатый материал для анализа. В случае фрамингемского исследования в 1948 году ученые собрали информацию о 5209 взрослых жителях города: их рост, вес, кровяное давление, уровень образования, состав семьи, типичные продукты питания, склонность к курению, употребление наркотиков и т. п. Важно то, что начиная с этого времени эти люди периодически повторно обследовались, а также собирались данные об их потомстве, чтобы выявить генетические факторы, связанные с развитием сердечно-сосудистых заболеваний. Начиная с 1950 года фрамингемские данные использовались при написании более чем двух тысяч научных статей, причем около тысячи из них были написаны в период с 2000 по 2009 год.
Эти исследования позволили получить чрезвычайно важные для понимания механизмов развития сердечно-сосудистых заболеваний результаты, многие из которых кажутся нам сейчас очевидными: курение сигарет увеличивает риск сердечно-сосудистых заболеваний (1960 год); физическая активность снижает риск сердечно-сосудистых заболеваний, а ожирение, наоборот, повышает (1967 год); высокое кровяное давление увеличивает риск инсульта (1970 год); высокий уровень холестерина альфа-липопротеинов высокой плотности (известного с тех пор как «полезный холестерин») снижает риск смертельного исхода (1988 год); у лиц, родители и близкие родственники (родные братья и сестры) которых страдали сердечно-сосудистыми заболеваниями, риск их развития значительно выше (2004–2005 годы).
Данные повторных исследований являются чем-то вроде научного эквивалента Ferrari. Они представляют особую ценность, когда речь идет о выявлении причинно-следственных связей, картина которых развертывается на протяжении нескольких лет или даже десятилетий. Например, исследование дошкольников под названием Perry Preschool Study началось в конце 1960-х годов и охватило группу из 123 афроамериканцев — выходцев из бедных семей в возрасте от трех до четырех лет. Эти дети были случайным образом распределены в группу, которая проходила интенсивное обучение по программе дошкольного образования, тогда как участники контрольной группы, использовавшейся для сравнения, его не проходили. В течение последующих сорока лет ученые анализировали различные результаты этого эксперимента, которые стали убедительным доводом в пользу раннего обучения детей. Учащиеся, которые прошли интенсивное обучение по программе дошкольного образования, уже в пятилетнем возрасте демонстрировали более высокие показатели IQ и имели больше шансов успешно окончить среднюю школу. В сорокалетнем возрасте у них были более высокие доходы. И напротив, многие из участников эксперимента, не получившие дошкольного образования, к сорокалетнему возрасту успевали по пять и более раз побывать за решеткой.
Нет ничего удивительного в том, что далеко не каждый из нас может позволить себе покупку Ferrari. Исследовательским эквивалентом этой машины является так называемый «поперечный срез», то есть совокупность данных, собранных в какой-то определенный момент времени. Если, например, эпидемиологи пытаются выявить причину какого-либо нового заболевания (или вспышки старого), они могут собрать данные обо всех, кто им страдает, в надежде получить картину, которая приведет к его источнику. Может быть, причина в том, что они едят? Или эти люди побывали в какой-то местности и заболели в результате этого? Что еще общего между людьми, страдающими этой болезнью? Кроме того, исследователи могут собрать данные о здоровых людях, чтобы выявить разницу между двумя группами.
На самом деле все эти оживленные дискуссии вокруг данных «поперечного среза» напоминают мне неделю перед моей свадьбой, когда я стал частью некой совокупности данных. В то время я работал в Катманду (столице Непала) и занемог желудком в результате малопонятной болезни под названием «сине-зеленые водоросли» (это заболевание было выявлено лишь в двух местах в мире). Ученым удалось выделить патоген, который был причиной болезни, но они все еще не были уверены, что собой представляет этот организм, поскольку на то время он еще не был известен науке. Когда я позвонил домой, чтобы рассказать невесте о моем диагнозе, я был вынужден признать, что это не самая приятная новость. Неизвестно, каким путем эта болезнь передается от человека к человеку и как ее лечить, к тому же она могла вызывать сильное утомление и прочие малоприятные побочные эффекты в период от нескольких дней до многих месяцев. Учитывая, что до свадьбы оставалась всего неделя, это могло оказаться серьезной проблемой. Следовало ли мне держать себя в руках, когда я бродил по супермаркету? Пожалуй, да.
Но затем я попытался сосредоточиться на позитивной информации. Во-первых, «сине-зеленые водоросли» не считались смертным приговором. И во-вторых, специалисты по тропическим болезням из Бангкока (далековато!) проявили особый интерес к моему случаю. Тебя не знобит? (К тому же мне приходилось постоянно возвращать дискуссию к вопросу, волновавшему меня в тот момент больше всего, — к планированию предстоящей свадьбы: «Хватит о моей неизлечимой болезни. Поговорим лучше о цветах».)
Свои последние часы в Катманду я провел, заполняя тридцатистраничную анкету, которая касалась буквально каждого аспекта моей жизни. Где я обедал и ужинал? Что именно я ел? Готовлю ли я дома, а если готовлю, то как? Приходилось ли мне плавать? Где и как часто? Все, у кого была обнаружена эта болезнь, заполняли точно такую же анкету. В конце концов патоген был выявлен: им оказались водные цианобактерии (Cyanobacteria). (Эти синие бактерии представляют собой единственный вид бактерий, получающих энергию из фотосинтеза; отсюда первоначальное описание заболевания как «сине-зеленые водоросли».) Оказалось, что эту болезнь можно лечить традиционными антибиотиками (но как ни странно, некоторые из новейших антибиотиков не действовали). Однако все эти открытия уже не могли мне помочь, потому что и без них я поправился достаточно быстро. Ко дню свадьбы моя пищеварительная система практически полностью восстановилась.
За каждым важным экспериментом кроются полезные данные, без которых он был бы невозможен. А за каждым неудачным... Одним словом, вам и так все понятно. Люди зачастую говорят о «лжи с помощью статистики». Я готов утверждать, что некоторые из самых вопиющих статистических ошибок обусловлены ложью с помощью данных; статистический анализ выполнен правильно, но данные, на основе которых он делался, неправильны или неуместны. Ниже приведено несколько типичных примеров из категории «мусор на входе — мусор на выходе».
Систематическая ошибка выбора. Говорят, что Паулина Кейл, кинокритик и давний сотрудник еженедельника The New Yorker, после того как Ричард Никсон стал президентом США, сказала: «Никсон не мог победить. Я не знаю ни одного человека, который бы за него проголосовал». Очень сомневаюсь, что Паулина Кейл могла такое сказать, но однако это весьма показательный пример того, как ничтожная выборка (группа либерально настроенных приятелей некоего человека) способна создать ложное представление о гораздо большем числе людей (всех американских избирателях). Отсюда вопрос, который всегда нас должен интересовать: как была сформирована выборка (или выборки) для оценивания? Если каждому члену генеральной совокупности не предоставлены равные шансы на включение в выборку, у нас наверняка возникнут проблемы с результатами, полученными на ее основе. Одним из ритуалов, связанных с проведением президентских выборов в Соединенных Штатах, является неофициальный, выборочный опрос общественного мнения (так называемый соломенный опрос) в штате Айова. За год до президентских выборов, в августе, кандидаты от Республиканской партии собираются в городке Эймис штата Айова, чтобы набрать участников опроса. Каждый из желающих в нем участвовать должен заплатить 30 долларов. «Соломенный опрос» в штате Айова ничего не скажет нам наверняка о политическом будущем кандидатов от Республиканской партии. (Этот опрос точно предсказал лишь трех из последних пяти республиканских «номинантов».) В чем тут причина? Дело в том, что жители штата Айова, заплатившие 30 долларов, отличаются от других сторонников Республиканской партии в этом штате, не говоря уже о том, что ее сторонники в штате Айова отличаются от сторонников Республиканской партии в целом по стране.
Систематическая ошибка выбора может возникнуть при различных обстоятельствах. Опрос потребителей в аэропорту искажается тем фактом, что любители летать самолетами, как правило, более состоятельные люди, чем население в целом; в случае проведения опроса на площадке для отдыха возле автомагистрали Interstate 90 может сложиться противоположная ситуация. На результаты обоих опросов наверняка повлияет и то, что люди, готовые в них участвовать, отличаются от людей, предпочитающих не отвлекаться на подобные вещи. Если вы попросите 100 человек в каком-либо общественном месте заполнить совсем небольшую анкету, то те 60, которые согласятся это сделать, наверняка будут существенно отличаться от остальных 40, которые вас проигнорируют.
Один из самых известных статистических просчетов — опрос, проведенный еженедельником Literary Digest в 1936 году, — был обусловлен неправильно сформированной выборкой. В том году губернатор штата Канзас республиканец Алф Лэндон сражался за президентский пост с действующим президентом США Франклином Рузвельтом (демократом). Еженедельник Literary Digest, в то время весьма влиятельное издание, провел по почте опрос среди своих подписчиков, а также среди владельцев автомобилей и домашних телефонов, адреса которых редакции Literary Digest удалось заполучить из открытых источников. Опрос Literary Digest охватил 10 миллионов потенциальных избирателей, что представляло собой выборку поистине астрономического масштаба. При увеличении размера правильно сформированной выборки точность опроса повышается, поскольку сужается допустимый предел погрешности. Когда же увеличивается размер неправильно сформированной выборки, высота мусорной кучи также увеличивается, а вонь от нее становится сильнее. Согласно прогнозу Literary Digest, победу на президентских выборах должен был одержать Алф Лэндон, получив 57% голосов избирателей. На самом же деле выиграл Франклин Рузвельт, получив 60% голосов избирателей, причем его победа была зафиксирована в сорока шести из сорока восьми штатов. Выборка, сформированная Literary Digest, оказалась пресловутым «мусором на входе»: подписчики еженедельника были более состоятельными людьми, чем средний американец, и, следовательно, были в большей степени склонны голосовать за республиканцев; то же самое можно сказать и о владельцах автомобилей и домашних телефонов (напомню, что выборы проводились в 1936 году).
Мы можем столкнуться с такой же фундаментальной проблемой при сравнении исходов в подопытной и контрольной группах, если механизм включения в них участников не обеспечивает случайного выбора. Рассмотрим недавние выводы относительно побочных эффектов лечения рака простаты, опубликованные в медицинской литературе. Существует три широко распространенных метода лечения рака простаты: хирургическое удаление простаты, лучевая терапия и брахитерапия (которая предусматривает имплантацию радиоактивных «семян» вблизи раковой опухоли). Типичный побочный эффект лечения рака простаты — импотенция, поэтому исследователи документировали половую функцию мужчин, к которым применялся какой-либо из трех указанных методов лечения. Обследование 1000 мужчин показало, что через два года после лечения половые акты могли совершать 35% мужчин в «хирургической» группе, 37% — в «лучевой» и 43% — в «брахитерапийной».
Можно ли, глядя на эти результаты, утверждать, что брахитерапия в наименьшей степени сказывается на половой функции мужчин? Отнюдь! Авторы данного исследования специально подчеркивали, что для этого у них нет никаких оснований, поскольку мужчины, к которым применяется этот способ лечения, как правило, моложе и в целом физически крепче тех, кого лечили другими методами. Цель данного исследования заключалась лишь в том, чтобы задокументировать степень половых побочных эффектов для всех типов лечения.
Систематическая ошибка такого же рода, известная как систематическая ошибка самоотбора, возникает, когда люди сами напрашиваются в подопытную группу. Например, заключенные, которые добровольно соглашаются на опробование какого-либо нового способа лечения от наркозависимости, отличаются от других заключенных именно потому, что сами попросили об этом. Если окажется, что после освобождения из тюрьмы они будут попадать за решетку гораздо реже, чем остальные заключенные, то это, конечно, замечательно, но абсолютно ничего не говорит нам о ценности нового способа лечения от наркозависимости. Возможно, эти бывшие заключенные изменили свою жизнь именно потому, что в этом им помог новый способ лечения от наркозависимости. Не исключено также, что это произошло под воздействием каких-то других факторов, которые также повлияли на их желание стать участниками эксперимента (одним из таких факторов мог быть страх перед перспективой вновь оказаться за решеткой). Мы не можем отделить причинно-следственное влияние одного (экспериментальная методика лечения наркозависимости) от другого (человек, изъявивший желание участвовать в опробовании нового способа лечения от наркозависимости).
Систематическая ошибка публикации. Позитивные результаты обнародуют охотнее, чем негативные. Допустим, вы только что завершили строго научное повторное исследование, которое показало, что увлечение видеоиграми не препятствует развитию рака толстой кишки. На протяжении двадцати лет вы обследовали репрезентативную выборку из 100 000 американцев и выяснили, что среди фанатов видеоигр и тех, кто совершенно ими не интересуется, заболеваемость раком толстой кишки находится примерно на одном уровне. Предположим, ваша методология безупречна. Какой из престижных медицинских журналов опубликует результаты данного исследования?
Думаю, никакой. И тому есть две причины. Во-первых, нет ни одной научно обоснованной причины полагать, что увлечение видеоиграми способствует развитию рака толстой кишки, а потому не совсем понятно, зачем вы проводили свое исследование. Во-вторых, тот факт, что некий фактор не препятствует заболеванию раком, не представляет научной ценности. В конце концов, многие вещи этому не препятствует. Негативные результаты не производят особого впечатления — ни в медицине, ни где бы то ни было.
А теперь допустим, что один из ваших приятелей, вместе с которым вы оканчивали магистратуру, провел другое повторное исследование и выяснил, что среди тех, кто много играет в видеоигры, заболевание раком толстой кишки встречается реже. А вот это уже гораздо интереснее! Результаты именно такого рода привлекают повышенное внимание медицинских журналов, популярной прессы, блогеров и разработчиков компьютерных игр (которые не преминут их снабдить надписью о пользе игр для здоровья). Пройдет совсем немного времени, и заботливые мамаши по всей стране бросятся спасать своих детей от рака, выхватывая у них книги из рук и заставляя играть в видеоигры.
Разумеется, согласно важному положению в статистике, необычные явления происходят довольно редко и, как правило, в результате случайного стечения обстоятельств. В одном из 100 аналогичных исследований наверняка обнаружатся нелепые результаты типа взаимозависимости между увлечением видеоиграми и меньшей заболеваемостью раком толстой кишки. Проблема в том, что результаты 99 исследований, которые не выявили такую связь, опубликованы не будут, поскольку малоинтересны. А вот единственное исследование, которое ее обнаружит, попадет в печать и привлечет к себе повышенное внимание. Источником данной систематической ошибки является не исследование как таковое, а сомнительная информация, которая фактически становится достоянием широкого круга читателей. Тот, кого интересует литература о видеоиграх и заболеваемости раком толстой кишки, найдет публикацию лишь о единственном исследовании, и в ней будет утверждаться, что увлечение видеоиграми предотвращает заболевание раком. Хотя на самом деле результаты 99 исследований из 100 свидетельствуют об отсутствии какой-либо связи.
Да, мой пример несколько абсурден, однако данная проблема вполне реальна и довольно серьезна. Вот первое предложение из статьи в The New York Times, в которой говорится о систематической ошибке публикации, касающейся лекарств от депрессии: «Производители антидепрессантов, таких как Prozak и Paxil, никогда не публиковали результаты примерно трети испытаний своих лекарств, проводившихся, чтобы получить одобрение государственных контролирующих органов. Таким образом производители антидепрессантов вводили в заблуждение врачей и пациентов относительно подлинной эффективности этих препаратов». Оказывается, были обнародованы данные о 94% исследований с положительными результатами, касающимися эффективности этих лекарств, и лишь о 14% исследований с отрицательными результатами. Для пациентов, страдающих депрессией, это крайне важно. Если бы были оглашены результаты всех исследований, то оказалось бы, что в действительности антидепрессанты лишь немногим лучше любого плацебо.
Чтобы справиться с данной проблемой, теперь медицинские журналы, как правило, требуют зарегистрировать любое исследование в самом начале проекта, если предполагается последующая публикация его результатов. Это предоставляет редакторам определенные свидетельства о соотношении позитивных и негативных исходов. Если, например, зарегистрировано 100 исследований по анализу влияния катания на роликовой доске (скейтборде) на развитие сердечно-сосудистых заболеваний, и лишь одно из них будет в конечном счете представлено для публикации с положительными результатами, то редакторы могут заключить, что в ходе других исследований получены отрицательные результаты (или по крайней мере проверить такую вероятность).
Систематическая ошибка памяти. Наша память — восхитительный дар, правда, далеко не всегда источник достоверных данных. Человеку свойственно воспринимать настоящее как логическое следствие прошедших событий. Иными словами, человек интуитивно пытается находить причинно-следственные связи. Проблема в том, что наша память оказывается «систематически хрупкой», когда мы пытаемся объяснить какой-либо особенно хороший или плохой результат в настоящем. Рассмотрим исследование, авторы которого пытаются выявить связь между рационом питания и раковыми заболеваниями. В 1993 году один из ученых Гарвардского университета собрал данные о группе женщин, страдающих раком груди, и информацию о группе женщин примерно того же возраста, у которых рак не был диагностирован. Женщин в обеих группах спросили об особенностях их рациона питания в молодые годы. Этот опрос выявил совершенно четкие результаты: женщины, страдающие раком груди, в молодости употребляли пищу с более высоким содержанием жиров.
Да, но это исследование вовсе не ставило перед собой задачу определить влияние рациона питания на вероятность развития раковых заболеваний! Оно было призвано определить, как заболевание раком влияет на память женщины о ее питании в прежние годы. Все женщины-участницы заполнили анкету, где спрашивалось об особенностях их питания, за много лет до того, как у кого-то из них был диагностирован рак. Самое интересное, что женщины, страдающие раком груди, вспомнили, что употребляли гораздо больше жиров, чем это было на самом деле, тогда как в воспоминаниях здоровых женщин существенных отклонений от реального рациона их питания в молодости не обнаружилось. Журнал The New York Times Magazine так описал скрытую природу этой систематической ошибки памяти:
Диагностирование рака груди не изменило настоящее и будущее женщины; оно изменило ее прошлое. Женщины, страдающие раком груди, решили (подсознательно), что пища с повышенным содержанием жиров, вероятно, обусловила их предрасположенность к раковым заболеваниям, и «вспомнили», что их рацион в молодости отличался повышенным содержанием жиров, хотя на самом деле это было не так. Подобный образ мышления знаком каждому, кто знает историю этого пользующегося дурной славой заболевания: эти женщины, как и тысячи женщин до них, искали в своих воспоминаниях причину заболевания и затем внедряли ее в память.
Наличие такой систематической ошибки памяти — одна из причин, почему ученые чаще предпочитают проводить повторные исследования, а не исследования типа «поперечный срез». В случае повторного исследования сбор данных выполняется на протяжении всего времени его проведения. В пятилетнем возрасте участника спрашивают о его отношении к школе. Затем, спустя тринадцать лет, мы можем наведаться к нему и выяснить, не бросил ли он школу досрочно. При проведении исследования «поперечный срез» все данные собираются одномоментно, и, спрашивая восемнадцатилетнего парня, бросившего школу, как он к ней относился в пятилетнем возрасте, мы вряд ли получим правдивый ответ.
Систематическая ошибка доживаемости до определенного возраста. Допустим, директор школы сообщает, что на протяжении четырех лет результаты экзаменов определенной группы учащихся неизменно улучшаются. Оценки второклассников лучше оценок первоклассников, а баллы третьеклассников еще лучше, чем у второклассников, ну и самые выдающиеся результаты демонстрируют ученики четвертого класса. Предполагается, что в данном случае отсутствуют какие-либо манипуляции с сознательным завышением оценок, а также с «творческим» применением описательных статистик. Каждый год эта группа становится все более успешной, какими бы показателями мы ни пользовались: средним, медианой, процентом учащихся, перешедших в следующий класс, и т. д.
Как бы вы поступили в подобном случае: a) присвоили директору этой школы звание «директор года» или b) потребовали бы от него дополнительных данных?
Лично я предпочел бы вариант b). У меня возникло сильное подозрение о наличии в данном случае систематической ошибки доживаемости до определенного возраста, которая возникает, когда какие-то из наблюдений выпадают из выборки, изменяя состав оставшихся наблюдений и тем самым сказываясь на результатах того или иного анализа. Допустим, что директор школы — никудышний администратор. Учебный процесс во вверенном ему заведении организован из рук вон плохо, учащиеся не приобретают никаких знаний, каждый год половина из них бросает учебу. Разумеется, это позитивно скажется на общих результатах экзаменов — притом что оценки каждого отдельно взятого учащегося не станут лучше. Если сделать вполне разумное допущение, что школу бросят самые нерадивые ученики (которые получали на экзаменах самые низкие оценки), то средний результат сдачи экзаменов оставшимися учащимися будет неуклонно повышаться по мере увеличения числа учеников, бросающих учебу. (Если собрать в одной комнате людей разного роста, а затем попросить «коротышек» выйти из комнаты, то средний рост оставшихся увеличится, хотя каждый из них в отдельности не стал выше.)
Индустрия взаимных фондов охотно ухватилась за систематическую ошибку доживаемости до определенного возраста, воспользовавшись ею для того, чтобы их прибыльность выглядела для инвесторов гораздо привлекательнее, чем на самом деле. Взаимные фонды обычно оценивают свою эффективность, сравнивая свои показатели с прибыльностью, обеспечиваемой одним из основных индексов, например Standard & Poor’s 500 (индекс 500 ведущих акционерных компаний открытого типа в Америке). Если в прошлом году S&P 500 повысился на 5,3%, то считается, что некий взаимный фонд превзошел этот индекс, если его прибыльность оказалась выше, и наоборот, взаимный фонд завершил год хуже, если его прибыльность ниже этого индекса. Для инвесторов, которые не желают платить менеджеру взаимного фонда, одним из довольно дешевых и простых вариантов будет покупка акций S&P 500 Index Fund, который представляет собой взаимный фонд, просто приобретающий доли во всех 500 пакетах акций, представленных в S&P 500. Менеджеры взаимных фондов убеждают нас в своей дальновидности и умении использовать знания для выбора таких ценных бумаг, которые обеспечивают более высокую прибыльность, чем какой-нибудь простой индексный фонд. В действительности превзойти S&P 500 на достаточно продолжительном отрезке времени довольно трудно. (По сути, S&P 500 представляет собой среднее пакетов акций всех крупных компаний, которые торгуются на фондовой бирже, поэтому с математической точки зрения можно ожидать, что примерно половина активно управляемых взаимных фондов в данном году превзойдет S&P 500, а другая половина, наоборот, продемонстрирует более слабый результат, чем S&P 500.) Разумеется, недосчитаться прибыли, доверив свои деньги какому-нибудь бездумному индексу, который просто покупает 500 пакетов акций и держит их у себя, было бы не очень красиво. Никакого тебе анализа. Никакого мудреного макропрогнозирования. И — к немалому удовольствию инвесторов — никаких заоблачных выплат в пользу менеджеров взаимных фондов.
Чем занимается традиционная компания типа взаимного фонда? Манипулирует данными! Вот как они могут «превзойти рынок», в действительности не делая этого. Крупная компания типа взаимного фонда открывает много новых активно управляемых фондов (это означает, что эксперты подбирают ценные бумаги, зачастую руководствуясь определенной стратегией). Допустим, к примеру, что она открывает двадцать новых фондов, каждый из которых с 50-процентной вероятностью может в данном году превзойти S&P 500. (Это предположение вполне соответствует долгосрочным данным.) Итак, согласно теории вероятностей, в первый год лишь десять новых фондов компании превзойдут S&P 500; пять фондов превзойдут S&P 500 в течение двух лет подряд; а два или три фонда — в течение трех лет подряд.
Дальше наступает черед самой большой хитрости. В этот момент новые взаимные фонды, которые продемонстрировали не особо впечатляющие результаты по сравнению с S&P 500, по-тихому прикрываются (их активы включаются в другие существующие фонды). Затем компания может запустить массированную рекламу двух или трех новых фондов, которые «год за годом превосходят S&P 500», — даже если результат, достигнутый ими, такая же случайность, как выпадание решки три раза подряд. Дальнейшие показатели эффективности этих фондов наверняка приблизятся к среднему значению — правда, по пути они привлекут к себе толпы новых инвесторов. На самом деле количество взаимных фондов или инвестиционных гуру, которые на протяжении достаточно продолжительного времени превосходят S&P 500, удручающе мало.
Систематическая ошибка здорового человека. Те, кто заботится о наличии в своем рационе достаточного количества витаминов, как правило, отличаются крепким здоровьем — поскольку это люди, потребляющие достаточное количество витаминов! Играют ли какую-то роль в этом витамины — другой вопрос. Рассмотрим следующий мысленный эксперимент. Допустим, чиновники Министерства здравоохранения пропагандируют теорию, согласно которой всем молодым родителям следует укладывать своих детей в постель лишь в лиловых пижамах, поскольку это стимулирует умственное развитие ребенка. Спустя двадцать лет повторное исследование подтверждает, что те, кто в детстве спал в лиловых пижамах, достигли заметных успехов во взрослой жизни. Например, оказалось, что 98% студентов-первокурсников Гардардского университета в детстве спали в лиловых пижамах (а многие и по сей день продолжают это делать), тогда как лишь 3% из тех, кто в детстве спал в пижамах лилового цвета, сидят в тюрьмах штата Массачусетс.
Разумеется, лиловые пижамы здесь абсолютно ни при чем, однако наличие родителей, которые заставляют своих детей спать в таких пижамах, еще как «при чем». Даже когда мы пытаемся контролировать уровень образования родителей, нам все равно приходится иметь дело с не поддающимися наблюдению различиями между теми родителями, которые придают огромное значение цвету пижамы своего ребенка, и теми, кому это совершенно безразлично. Гэри Тобис, обозреватель The New York Times, специализирующийся на вопросах здоровья, объясняет: «Попросту говоря, проблема в том, что те, кто с огромным энтузиазмом выполняет все рекомендации, которые кажутся им чрезвычайно полезными (неукоснительно принимают лекарства, прописанные врачом, или соблюдают диеты), принципиально отличаются от тех, кто к таким советам не считает нужным прислушиваться». Данный эффект способен обесценить любое исследование, пытающееся определить реальную пользу действий, якобы благотворно влияющих на здоровье человека (например, регулярные занятия спортом или употребление в пищу листовой капусты). Мы полагаем, что сравниваем влияние на здоровье двух диет: с капустой и без нее. В действительности, если подопытная и контрольная группы сформированы случайным образом, мы сравниваем две диеты, которых придерживаются две разные категории людей. У нас есть подопытная группа, и она отличается от контрольной группы в двух аспектах, а не в одном.
Если статистика напоминает работу следователя, то данные являются аналогом вещественных улик. Моя жена год работала преподавателем в старших классах сельской школы штата Нью-Гэмпшир. Одного из ее учеников арестовали за ограбление магазина хозтоваров. Полиции удалось быстро раскрыть это преступление, потому что 1) накануне кражи выпал снег и следы от магазина вели к дому, где проживал грабитель; и 2) в доме были найдены похищенные товары. Таким образом, надежные вещественные доказательства действительно помогли.
Цените надежные данные. Но для начала вам понадобится их добыть, а это гораздо труднее, чем может показаться на первый взгляд.