Книга: Думай «почему?». Причина и следствие как ключ к мышлению
Назад: Опосредование в линейной стране чудес
Дальше: Примеры исследований опосредования

Знакомьтесь с «если бы»

Далее я расскажу вам историю своего собственного обращения, потому что достаточно долго мне не давал покоя тот же самый вопрос, который озадачил студента Мелани Уолл.
В главе 4 я писал о Джейми Робинсе, пионере статистики и эпидемиологии в Гарвардском университете, который вместе с Сандером Гренландом из Калифорнийского университета в Лос-Анджелесе ввел широкое употребление графических моделей в современной эпидемиологии. Мы сотрудничали несколько лет, с 1993 по 1995 год, и он навел меня на мысли о проблеме последовательных схем интервенции, что было одним из его главных научных интересов.

 

За много лет до этого Робинса, как эксперта по производственному здравоохранению и безопасности, попросили выступить в суде с мнением о вероятности того, что воздействие химических веществ на рабочем месте привело к смерти рабочего. Робинс был обескуражен, обнаружив, что в статистике и эпидемиологии совершенно нет инструментов для ответов на подобные вопросы. Это по-прежнему была эра почти полного табу на причинность в статистике. Говорить о ней дозволялось только в случае рандомизированных контролируемых исследований, а по этическим соображениям провести подобный эксперимент на людях, чтобы выяснить последствия воздействия формальдегида, было совершенно невозможно.
Обычно рабочие на фабрике подвергаются воздействию токсичных веществ не однократно, а в течение долгого времени. По этой причине Робинс стал интересоваться всеми случаями, когда уровень воздействия химических веществ менялся с течением времени. Иногда такие воздействия бывают и благотворными, например, при СПИДе препараты применяются в течение многих лет, при этом схемы лечения меняются в зависимости от того, как на них реагирует уровень гликопротеина CD4 у пациента. Как вычленить каузальное воздействие курса лечения, если он состоит из множества стадий и промежуточные переменные (которые используются в качестве контроля) зависят от более ранних стадий лечения? Эти вопросы определили направление карьеры Робинса.
После того как Джейми прилетал ко мне в Калифорнию, услышав о «задаче на салфетке» (см. главу 7), он активно заинтересовался перспективами применения графических методов к последовательным схемам лечения, которые были его коньком. Вместе мы выработали последовательный критерий черного хода для оценки каузального воздействия подобных терапевтических курсов. Это сотрудничество научило меня нескольким важным вещам. В частности, оно показало мне, что анализировать два действия иногда проще, чем одно, потому что каждое действие соответствует стиранию стрелки на графе и таким образом делает его более разреженным.
Наш критерий черного хода работал с длительным курсом лечения, состоящим из произвольно большого числа do-операций. Но даже две операции — это уже интересная математика, в том числе контролируемое прямое воздействие, которое состоит из одного действия, которое «играет» значением экспериментального воздействия, в то время как другое действие удерживает опосредующую переменную на постоянном уровне. Что еще важнее, идея определения прямых воздействий в терминах do-операций освободила их из тюрьмы линейных моделей и укоренила в каузальном исчислении. Но по-настоящему я заинтересовался опосредованием только позднее, когда обнаружил, что люди по-прежнему совершают ошибки в самых элементарных вещах, например как в упомянутом выше Заблуждении Опосредования. Меня также огорчало то, что основанное на действии определение прямого воздействия не расширялось на непрямое воздействие. Как сказал студент Мелани Уолл, у нас нет переменной или набора переменных, интервенция по которым могла бы заблокировать прямой путь и оставить непрямой путь действующим. По этой причине непрямое воздействие казалось мне плодом воображения, лишенным независимого значения и только напоминающим нам, что суммарное воздействие может отличаться от прямого воздействия. Я даже писал об этом в таких выражениях в первом издании (2000) своей книги «Причинность». Это был один из трех крупнейших просчетов в моей карьере.
Сейчас, глядя в прошлое, я понимаю, что был ослеплен успехом do-исчисления, благодаря которому я уверился в том, что единственный способ заблокировать каузальный путь — это взять переменную и придать ей определенное постоянное значение. Это не так: если у меня есть каузальная модель, я могу манипулировать ей по-разному, творчески, решая, какая переменная «слушает» какую, когда и как. В частности, я могу зафиксировать главную переменную на постоянном уровне, чтобы подавить ее прямое воздействие, и гипотетически, но одновременно с этим стимулировать главную переменную, чтобы передать ее воздействие через опосредующую переменную. Это позволит мне выставить переменную экспериментального воздействия (т. е. котят) на ноль и выставить опосредующую переменную на тот уровень, который был бы у нее, если бы уровень переменной котята был равен единице. Моя модель процесса, порождающего данные, затем сообщит мне, как подсчитать общее воздействие расщепленной интервенции.
Я в долгу перед одним из читателей первого издания Жаком Хагенаарсом (автором книги «Качественные продольные данные») за совет не оставлять надежду на непрямое воздействие. «Многие эксперты в области общественных наук согласны с наблюдаемым на входе и выходе, разногласия как раз в том, каков механизм», — написал он мне. Но я почти два года не мог сдвинуться с места из-за дилеммы, о которой написал в последнем разделе «Как можно заблокировать прямое воздействие?».
Все эти вопросы пришли к неожиданному разрешению, близкому к божественному откровению, когда я прочел юридическое определение дискриминации, которое я цитировал в этой главе ранее: «… если бы нанимаемый был другой расы… а все остальное было бы точно таким же». Вот она — суть проблемы! Это игра «в понарошку». Мы поступаем с каждым индивидуумом по ее или его заслугам, и мы сохраняем все характеристики этого индивидуума на том уровне, на котором они были до изменения в экспериментальной переменной.
Как это разрешает нашу дилемму? Это означает, в первую очередь, что нам придется заново дать определения как прямого, так и непрямого воздействий. Для прямого воздействия мы позволяем опосредующей переменной принять то значение, которое она имела бы — для каждого индивидуума — в отсутствие экспериментального воздействия, и фиксируем ее в этой точке. Теперь мы «играем» экспериментальной переменной и отмечаем разницу. Эта процедура отличается от контролируемого прямого воздействия, описанного ранее, где опосредующая переменная фиксируется на одном и том же уровне для всех. Поскольку мы позволяем опосредующей переменной принимать ее естественные, «натуральные» значения, я называю это натуральным прямым воздействием. Аналогично, для натурального непрямого воздействия я сначала исключаю действие экспериментальной переменной для всех и каждого, а затем позволяю опосредующей переменной принять для каждого индивидуума то значение, которое она бы приобрела в присутствии экспериментального воздействия. В конце я опять отмечаю наблюдаемые различия.
Я не знаю, помогло бы законодательное определение дискриминации вам либо кому-либо еще пойти тем же путем, что и я. Однако к 2000 году я уже владел контрфактивным языком, как своим родным. Научившись читать контрфактивные высказывания в каузальных моделях, я понял, что это всего лишь количественные данные, которые подсчитываются с помощью невинных операций с уравнениями или диаграммами. Они как таковые оказались готовы к заключению в математическую формулу. Все, что мне понадобилось, — это ухватить «если бы».
В одну секунду я понял, что каждое прямое и непрямое воздействие можно перевести на язык контрфактивных выражений. Как только я понял, как это делается, выведение формулы для оценки натуральных прямых и непрямых воздействий из данных и определения легитимности этой процедуры получилось по щелчку пальцев. Что важно, эта формула не строит предположений о специфике функциональной формы отношений между Х, М и Y. Нам удалось сбежать из Линейной Страны Чудес.
Новое правило я назвал Формулой Опосредования, хотя на самом деле формул две: одна для натурального прямого воздействия, другая для натурального непрямого воздействия. При условии некоторых вполне прозрачных допущений, эксплицитно выраженных в графе, она рассказывает, как их оценить из имеющихся данных. Например, в ситуации, подобной воспроизведенной на рис. 56, где между переменными нет осложнителей, а М — опосредующая переменная между экспериментальной переменной Х и результатом Y:
НПВ= ∑m (P(M = m|P = 1) — P(M = m|X = 0)) * P(Y = 1 |X = 0, M = m). (9.5)
Трактовка этой формулы весьма познавательна. Выражение в скобках означает воздействие Х на М, а следующее за ним выражение — воздействие М на Y (когда Х = 0). Таким образом, она отражает происхождение идеи произведения коэффициентов, выраженной в виде произведения двух нелинейных воздействий. Обратите внимание также на то, что, в отличие от уравнения (9.3), уравнение (9.5) не содержит нижних индексов и do-операторов и, следовательно, оценивается из данных первого уровня причинности.
Неважно, кто вы — ученый в лаборатории или ребенок на велосипеде, вас всегда будет радовать тот факт, что сегодня вы научились чему-то, чего не умели вчера. И именно эту радость я ощущал, когда Формула Опосредования впервые появилась на бумаге. Мне теперь с первого взгляда было видно все о прямых и непрямых воздействиях: что нужно, чтобы увеличить или уменьшить их, когда их оценивают из данных, полученных в результате наблюдений или интервенций, и когда мы можем заявить, что опосредующая переменная «виновна» в передаче наблюдаемых изменений к итоговой переменной. Отношения между причиной и следствием бывают линейными или нелинейными, численными или логическими. Ранее каждый из этих случаев приходилось рассматривать отдельно, если, конечно, о них упоминали вообще. Теперь единая формула годится для любого из них.
Если у нас есть верные данные и верная модель, мы способны определить, виновен ли наниматель в дискриминации или какие осложнители удержат нас от этого вывода. По данным Барбары Бёркс мы оценим, какая часть ай-кью ребенка определяется наследственностью, а какая — воспитанием. Мы даже высчитаем процент общего воздействия, объясняемый опосредованием, и процент, определяемый опосредованием, — две взаимодополняющие концепции, которые в линейных моделях сливаются в одну.
После того как мне удалось записать контрфактивное определение прямых и непрямых воздействий, я узнал, что я не первым пришел к этой идее. Робинс и Гренланд побывали там до меня, еще в 1992 году. Но их статья описывает концепцию натурального воздействия словами, не сводя их к математической формуле. Что важнее, они отнеслись к идее натуральных воздействий в целом пессимистически и постулировали, что такие воздействия нельзя оценить даже по экспериментальным исследованиям и уж точно не по исследованиям, основанным на наблюдениях. Это утверждение удержало других исследователей от изучения потенциала натуральных воздействий. Сложно сказать, смогли ли бы Робинс и Гренланд перейти к более оптимистичной точке зрения, если бы они пошли чуть дальше и выразили натуральное воздействие в виде формулы на контрфактивном языке. Для меня этот дополнительный шаг оказался решающим.
У них, вероятно, был еще один повод для пессимизма, с которым я не согласен, но попробую обсудить. Они изучили контрфактивное определение натурального воздействия и увидели, что оно сочетает в себе информацию из двух разных миров, одного, в котором вы удерживаете экспериментальную переменную на нуле, и другого, в котором вы меняете опосредующую переменную на то значение, которое она приняла бы, если бы вы выставили экспериментальную переменную на единицу. Поскольку это условие пересечения миров нереально выполнить ни в одном эксперименте, ученые решили, что оно вне игры. В этом разница их и моего философских подходов.
Они полагают, что легитимизировать причинностные связи можно, только воспроизведя рандомизированное исследование наиболее точно, основываясь на предположении, что это единственно вероятный путь к научной истине. Я же верю, что должны быть и иные пути, чья правомерность происходит из сочетания данных и установленных (или предполагаемых) научных знаний. В этой связи доступны методы и более мощные, чем РКИ, основанные на допущениях третьей ступени, и я не боюсь их использовать. Там, где они зажигают красный свет, останавливая исследователей, я зажигаю зеленый — Формулу Опосредования: если вам годятся эти допущения, то смотрите, что можно сделать! К сожалению, красный свет на светофоре Робинса и Гренланда удержал область опосредования от дальнейшего развития в течение долгих девяти полных лет.
Многих людей формулы пугают, им кажется, что они скорее скрывают информацию, чем делают ее доступной. Однако для математика или для того, кто сумел научиться математическому мышлению, верно как раз обратное. Формула объясняет все: она не оставляет сомнений и двусмысленностей. Читая научную статью, я часто ловлю себя на том, что перепрыгиваю от формулы к формуле, пропуская текст. Для меня формула — это хорошо пропеченная идея. Слова — это сырое тесто, которое только ставят в печь.
Формула служит двум целям, одна из них практическая, вторая социальная. С практической точки зрения студенты или коллеги могут пользоваться ей как рецептом. Рецепт может быть простым или сложным, но в итоге он обещает вам, что, если вы будете следовать пошаговой инструкции, вы получите натуральные прямое и непрямое воздействия, конечно, в том случае, если ваша каузальная модель адекватно отражает реальный мир.
Вторая цель более тонкая и сложно вербализуемая. У меня был друг из Израиля, известный художник. Однажды я приехал к нему в студию, чтобы приобрести одну из его картин, и его полотна были везде — сотни под кроватью, десятки на кухне. Стоили они в диапазоне от 300 до 500 долларов, и выбрать из них одну оказалось нелегкой задачей. Наконец я показал на ту, что висела на стене, и сказал: «Мне нравится вот эта». «Эта стоит пять тысяч долларов», — ответил он. «Как так?» — удивился я, недоумевая и даже немного протестуя. Художник ответил: «Эта в раме». Мне потребовалось несколько минут, чтобы понять, что он имел в виду. Эта картина стоила дорого не потому, что ее вставили в раму. Ее вставили в раму потому, что она была ценной. Из сотен работ в студии автор выбрал и вставил в раму именно ее. Она лучше всего выражала то, над чем он работал на других полотнах, и на ней стояла печать законченности — рамка.
Это вторая цель формулы. Это общественный договор. Она вставляет идею в рамку и говорит: «Это что-то, что я считаю важным. Это нечто, чем стоит поделиться».
Вот поэтому я решил вставить в рамку Формулу Опосредования. Ей стоит делиться, потому что для меня и для многих таких, как я, она представляет собой решение 100-летней дилеммы. И она важна, потому что дает практический инструмент для идентификации механизмов и анализа их относительной важности. Это социальный договор, выраженный Формулой опосредования.
Как только утвердилось мнение, что нелинейный анализ опосредования возможен, исследования в этой области стали множиться как грибы. Если вы доберетесь до базы данных по академическим публикациям и предпримете поиск по заголовкам со словами «анализ опосредования», то до 2004 года вы не найдете практически ничего. Затем будет семь статей в год, потом десять, потом двадцать: сейчас же на эту тему публикуется более сотни работ в год. Я хотел бы закончить эту главу тремя примерами, которые, я надеюсь, хорошо проиллюстрируют разнообразие возможностей, которое открывает нам анализ опосредования.
Назад: Опосредование в линейной стране чудес
Дальше: Примеры исследований опосредования