Книга: Думай «почему?». Причина и следствие как ключ к мышлению
Назад: Искусное дознание природы: почему РКИ работают
Дальше: Оператор Do и критерий черного хода

Новая парадигма конфаундеров

«Хотя проблема конфаундеров, или вмешивающихся переменных, общепризнанно считается одной из центральных в эпидемиологических исследованиях, обзор литературы обнаруживает заметную непоследовательность в определении этих терминов», — этой фразой Сандер Гренланд из Калифорнийского университета в Лос-Анджелесе и Джейми Робинс из Гарвардского университета выразили самую суть причины, по которой в борьбе с конфаундерами ученые их времени не продвинулись ни на шаг со времен Фишера. Без сущностного понимания проблемы авторы обзорных работ, в которых контроль над условиями наблюдаемого невозможен, не могли сказать ничего осмысленного.
Каково было определение конфаундеров тогда и каким оно должно быть теперь? Благодаря современным знаниям о логике причинности, на второй вопрос ответить проще. То, что мы наблюдаем и способны измерить, — это вероятность данного исхода при данном воздействии, P (Y | X). Вопрос, который мы задаем природе, имеет отношение к причинно-следственной связи между X и Y, которая выражается в интервенционной вероятности P (Y | do (X)). Конфаундеры, таким образом, должны быть определены просто как все, что приводит к несовпадению этих вероятностей: P (Y | X) ≠ P (Y | do (X)). Что тут сложного?
К сожалению, до 90-х годов XX века все было непросто, потому что оператор do еще не был формализован. Даже сегодня, если вы поймаете на улице статистика и спросите, что такое конфаундеры, вы, скорее всего, услышите самое запутанное и переусложненное объяснение, какое вам только доводилось слышать от ученого. Одна недавно вышедшая книга, написанная сразу двумя светилами статистики, объясняет, что это такое, на протяжении целых двух страниц, и мне еще, надеюсь, предстоит встретить ее читателя, который понял это объяснение.
Причина этих трудностей в том, что конфаундеры — понятие за рамками статистики. Это несоответствие того, что мы хотели бы получить (причинно-следственная связь), и того, что мы реально получаем статистическими методами. Если мы не в состоянии математически выразить то, что собираемся найти, то как мы определим несоответствие ему? Исторически концепция конфаундеров возникла вокруг двух связанных между собой концепций: несопоставимости и скрытой (вмешивающейся) третьей переменной. Обе эти концепции упорно не поддавались формализации. Когда мы говорили о сопоставимости в контексте эксперимента Даниила, мы утверждали, что подопытная и контрольная группы должны быть идентичны по всем важным параметрам. Но из этого неизбежно следует, что нам придется отличать важное от неважного. Откуда мы знаем, что в исследовании про ходьбу пожилых мужчин в Гонолулу возраст — это важный параметр? Почему мы знаем, что расположение фамилий участников этого исследования по алфавиту — параметр неважный? Можно сказать, что это очевидно или что это следует из здравого смысла, однако бесчисленные поколения ученых бьются над тем, чтобы как-то формализовать этот здравый смысл, поскольку робота поступать согласно человеческому здравому смыслу научить нельзя.
От такой же двусмысленности страдает и определение третьей переменной. Считать ли таковой только общую причину X и Y, или достаточно, чтобы эта переменная была скоррелирована с ними обеими? Сегодня мы отвечаем на такие вопросы, обращаясь к каузальной диаграмме и выясняя, какие переменные отвечают за несоответствие между P (X | Y) и P (X | do (Y)). Без диаграмм и оператора do пять поколений статистиков и медиков мучились с их суррогатами, ни один из которых не был полностью удовлетворяющим. То, что лекарства в вашей аптечке разработаны и испытаны на основе сомнительного определения конфаундеров, должно вызывать беспокойство.
Давайте взглянем на некоторые суррогатные дефиниции конфаундеров. Большинство их подпадает под одну из двух категорий — декларативную или процедурную. Типичное (и неверное) декларативное определение звучит так: «Конфаундер — это любая переменная, коррелирующая сразу и с X, и с Y». Процедурное определение, в свою очередь, будет пытаться определить конфаундер в терминах статистического анализа. Это нравится статистикам, которые обожают методы, применимые на имеющихся данных напрямую, без обращения к модели.
Вот процедурное определение, известное под пугающим названием «несхлопываемость». Оно появилось в статье 1996 года норвежского эпидемиолога Свена Хернберга: «Формально можно сравнить грубый относительный риск и относительный риск после поправок на потенциальные конфаундеры. Наличие разницы означает, что конфаундеры реально присутствуют, и в этом случае следует использовать скорректированную оценку риска. Если разницы нет или она пренебрежимо мала, конфаундеров нет и предпочтительнее использовать грубую оценку». Другими словами, чтобы узнать, есть ли влияние конфаундеров, попробуйте вводить по ним поправки или не вводить; если есть разница, есть и конфаундер. Конечно, Хернберг был далеко не первым, кто предложил такой подход; почти столетие он путал эпидемиологов, экономистов, социологов и до сих царит в некоторых областях практической статистики. Я выбрал определение Хернберга только потому, что он написал об этом неожиданно подробно и в 1996 году, когда Революция Причинности уже шла полным ходом.
Самое популярное из декларативных определений образовалось за некоторый промежуток времени. Альфредо Морабиа, автор книги «История методов и концепций в эпидемиологии», называет его «классическим эпидемиологическим определением конфаундеров» и оно состоит из трех частей. Конфаундером X (экспериментального воздействия) и Y (результата) называется переменная Z, которая: 1) ассоциирована с X в популяции в целом и 2) ассоциирована с Y среди тех, кто не получал экспериментального воздействия X. В последние годы к этому добавилось третье условие: Z не должно находиться на каузальном пути от X к Y.
Обратите внимание, что вся терминология в классической версии (1 и 2) чисто статистическая. В частности, допускается только, что Z ассоциировано с X и Y, а не является причиной их обеих. Эдвард Симпсон в 1951 году предложил довольно невразумительное условие: «Y ассоциируется с Z среди неэкспонированного». С каузальной точки зрения похоже, что идеей Симпсона было исключить ту часть корреляции Z с X, которая возникает благодаря каузальному воздействию X на Y; другими словами, он хотел сказать, что Z воздействует на Y независимо от его воздействия на X. Единственное, что ему удалось придумать для выражения этого исключения, сосредоточив внимание на контрольной группе (X = 0), было введение поправок по X. Статистический словарь, лишенный слова «воздействие», не оставлял ему возможности сказать это иначе.
Вам кажется, что это все сбивает с толку? Так оно и есть. Насколько проще было бы, если бы он мог просто нарисовать каузальную диаграмму, вроде той, что на рис. 26, и сказать «Y ассоциирована с Z через пути, не проходящие через X». Но у него не было этого инструмента, и он не мог говорить о путях, концепция которых была тогда под запретом.
У «классического эпидемиологического определения» конфаундеров есть и другие недостатки, как показывают следующие два примера:
1) XZY
и
2) X → M → Y
Z
В первом примере Z удовлетворяет условиям (1) и (2), но это не конфаундер. Такие переменные называют медиаторами или опосредующими переменными: они объясняют каузальное воздействие X на Y. Если вы пытаетесь определить каузальное воздействие X на Y, попытка вводить поправки по фактору Z приведет к неудаче. Если брать только тех индивидов как в контрольной, так и в опытной группе, для которых Z = 0, вы полностью блокируете воздействие X, потому что оно работает посредством изменения Z. Из этого вы делаете неверный вывод, что X не влияет на Y. Именно это имел в виду Эзра Кляйн, когда говорил: «Иногда в итоге вы выравниваете выборку как раз по тому фактору, который хотите измерить».
Во втором примере Z — это опосредованная переменная для медиатора M. Статистики очень часто используют опосредованные переменные, когда истинная каузальная переменная не поддается измерению: так, принадлежность к политической партии может быть использована как опосредованная переменная для политических взглядов. Поскольку Z не является точной мерой M, некоторая часть влияния X на Y способна просочиться, если вы вводите поправки по Z. Тем не менее это все еще ошибочно; хотя смещение будет меньшим, чем если вы вводите поправки по M, оно никуда не денется.
По этой причине позднее статистики, среди которых стоит отметить Дэвида Кокса с его учебником «Планирование исследований» (1958), предупреждали, что вводить поправки по Z стоит только в том случае, если вы «заранее имеете серьезные причины предполагать», что на Z не влияет X. Эти «заранее известные серьезные причины» — не что иное, как каузальное допущение. Он добавляет: «Выдвигать такие гипотезы совершенно нормально, однако ученый должен четко осознавать, когда именно к ним апеллировать». Напомню, что это 1958 год, разгар запрета на обсуждение причинности. Кокс открыто говорит, что при введении поправок по конфаундерам вполне допустимо украдкой глотнуть запретного — главное, не говорить об этом святошам. Дерзкое предложение! Я никогда не упускаю случая отдать должное его храбрости.
К 1980 году условия Симпсона и Кокса были объединены в трехчастную проверку на конфаундеры, упомянутую выше. Она примерно настолько же надежна, как лодка, которая течет всего в трех местах. Хотя она и обращается нерешительно к причинности в третьей части, несложно показать, что каждая из первых двух и не нужна, и недостаточна. Гренланд и Робинс вынесли это вердикт в своей эпохальной статье 1986 года. Они сформировали совершенно новый подход к проблеме конфаундеров, который назвали взаимозаменяемостью. Они вернулись к исходной идее о том, что контрольная группа (X = 0) должна быть сравнима с опытной группой (X = 1). Однако они добавили к ней контрфактивный выверт (вспомним из главы 1, что контрфактивные высказывания находятся на третьей ступени Лестницы Причинности и поэтому обладают достаточной мощностью, для того чтобы распознавать конфаундеры). Взаимозаменяемость требует от исследователя рассмотреть опытную группу, вообразить, что стало бы с составляющими ее объектами, если бы изучаемое воздействие не применялось, и затем решить, будет ли результат таким же, как и для тех, кто не подвергался (в реальности) этому воздействию. Только в случае положительного ответа мы можем сказать, что в исследовании нет конфаундеров.
В 1986 году говорить с эпидемиологической аудиторией о контрфактивных высказываниях было достаточно смело, потому что они в значительной степени оставались под влиянием классической статистики, полагающей, что все ответы уже находятся в данных, а не в том, что могло произойти и навеки останется ненаблюдаемым.
Однако статистическое сообщество было частично подготовлено к подобной ереси, за что стоит благодарить пионерскую работу другого статистика из Гарварда, Дональда Рубина. В рубинской схеме потенциальных исходов, предложенной в 1974 году, контрфактивные переменные вроде «артериальное давление испытуемого X, если бы он получал препарат П» и «артериальное давление испытуемого X, если бы он не получал препарата П» столь же легитимны, как традиционные переменные вроде артериального давления — несмотря на тот факт, что наблюдения за одной из этих переменных не состоятся никогда.
Робинс и Гренланд решили выразить свою концепцию конфаундеров в терминах потенциальных исходов. Они разделили выборку на четыре типа испытуемых: обреченных, каузативных, превентивных и иммунных. Давайте представим, что экспериментальное воздействие X — это вакцина от гриппа, а исход Y — заболевание гриппом. Обреченные — это те, кому вакцина не помогает, они заболеют гриппом вне зависимости от того, получат вакцину или нет. Каузативная группа (которой в реальности может не быть вовсе) включает тех, у кого вакцина вызывает настоящий грипп. Превентивная группа состоит из тех, для кого вакцина предотвращает заболевание: они заболеют гриппом, если не привьются, и не заболеют, если сделают прививку. Наконец, иммунная группа — это те, кто не заболеет гриппом ни в каком случае. Табл. 4 суммирует эти соображения.

 

Таблица 4

 

В идеале у каждого человека на лбу должна быть этикета, сообщающая, к какой группе он принадлежит. Взаимозаменяемость предполагает, что процент людей с каждым типом этикетки (процент О, процент К, процент П и процент И соответственно) должен быть одинаков и в контрольной, и в опытной группе. Равенство этих пропорций гарантирует, что исход будет тем же самым, если мы поменяем местами опыт и контроль. В противном случае опытная и контрольная группа неодинаковы и наши оценки эффективности вакцины окажутся смещенными. Обратите внимание, что две группы могут различаться по самым разным параметрам: по возрасту, полу, состоянию здоровья и ряду других характеристик. Только наличие равенства по процентному соотношению О, К, П и И определяет, взаимозаменяемы они или нет. Таким образом, взаимозаменяемость сводится к равенству между двумя наборами из четырех пропорций, что намного проще альтернативы — учета бесчисленных факторов, по которым популяции могут различаться.
Используя это определение конфаундеров, опирающееся на здравый смысл, Гренланд и Робинс показали, что статистические определения, как декларативные, так и процедурные, дают неверные ответы. Переменная может удовлетворять трехчастному тесту эпидемиологов и все-таки усиливать смещение оценки, если вносить в нее поправку.
Определение Гренланда и Робинса было огромным достижением, потому что оно позволило им привести ясные примеры, наглядно демонстрирующие, что предыдущие определения были неадекватны. Тем не менее эту дефиницию нельзя перевести в практическую плоскость. Проще говоря, таких удобных этикеток на лбу не бывает. Мы даже не можем подсчитать процент О, К, П и И. Это как раз та информация, которую хит-рый джинн природы прячет от всех внутри своей волшебной лампы. Без этой информации исследователю остается только полагаться на интуицию, решая, взаимозаменяемы опытная и контрольная группа или нет.
Надеюсь, к этому моменту мне удалось разжечь ваше любопытство. Каким образом каузальные диаграммы превращают головную боль конфаундеров в веселую игру? Секрет лежит в операционном тесте на конфаундеры, называемом критерием черного хода. Этот критерий превращает проблему определения конфаундеров, их поиска и ввода поправок по ним в рутинную задачу, ничуть не более сложную, чем решение журнальной головоломки. Он привел столетнюю, упорную проблему к благополучному разрешению.
Назад: Искусное дознание природы: почему РКИ работают
Дальше: Оператор Do и критерий черного хода