Примеры исследований опосредования

Книга: Думай «почему?». Причина и следствие как ключ к мышлению

Дальше: Глава 10. Большие данные, искусственный интеллект и важные вопросы

«Алгебра для всех»: образовательная программа и ее побочные эффекты.

Для государственных школ Чикаго были характерны те же, неразрешимые, на первый взгляд, проблемы, что и для большинства систем школьного образования в мегаполисах: высокий уровень бедности, низкий бюджет и значительная разница в успеваемости между студентами разного расового и этнического происхождения. В 1988 году тогдашний министр образования Уильям Беннет назвал школы Чикаго худшими во всей стране.

Однако в 90-е годы ХХ века при новом руководстве государственные школы Чикаго предприняли ряд реформ и из «худших в стране» превратились в «ведущие в стране». Некоторые из руководителей этих преобразований обрели всеамериканскую известность, например Арне Дункан, который стал министром образования при президенте Бараке Обаме.

Одним из нововведений, появившихся еще до Дункана, была политика, принятая в 1997 году, отменяющая корректирующие курсы в высшей школе и требующая, чтобы все девятиклассники проходили курсы на уровне подготовки в колледж, такие как «Английский I» и «Алгебра I». Математическая часть этой образовательной программы называлась «Алгебра для всех».

Увенчалась ли «Алгебра для всех» успехом? Оказалось, что на этот вопрос неожиданно сложно ответить. Обнаружились как хорошие, так и плохие новости. Хорошие состояли в том, что результаты экзаменов действительно улучшились. Оценки по математике выросли на 7,8 балла за три года, что представляет собой статистически значимое различие, эквивалентное тому, что примерно 75 % студентов получает на экзамене баллы выше того среднего значения, которое наблюдалось до внедрения программы. Однако перед тем, как заводить разговор о причинности, нам нужно исключить осложнители, а в этом случае имелся один весьма серьезный. К 1997 году квалификация школьников, поступающих в девятый класс, уже улучшилась благодаря более ранним изменениям в программе восьмого класса. Таким образом, в этом случае мы не сравниваем яблоки с яблоками. Поскольку эти школьники пришли в девятый класс с уже более глубокими знаниями, чем школьники из 1994 года, их положительные оценки могли объясняться улучшенной программой для восьмого класса, а вовсе не «Алгеброй для всех».

Гуанлей Хон, профессор кафедры развития человека в Чикагском университете, исследовала имеющиеся данные и нашла, что улучшения в экзаменационных баллах становятся незначимыми, если принимать во внимание этот осложнитель. На этом этапе Гуанлей Хон легко могла бы прийти к умозаключению о том, что «Алгебра для всех» успеха не имела, но она этого не сделала, потому что следовало принять во внимание еще один фактор — на этот раз не осложнитель, а опосредующую переменную.

Любой хороший учитель знает, что успехи школьников зависят не только от того, чему их учат, но и от того, как именно учат. Когда стали вводить программу «Алгебра для всех», изменилась не только программа девятого класса. Хуже успевающие школьники оказались в одних классах с хорошо успевающими, и им оказалось трудно нагонять. Это привело к целому ряду негативных последствий: разочарованиям, прогулам и, конечно, снижению оценок на экзаменах. Кроме этого, в классах, где вместе учились школьники разной успеваемости, отстающие ученики, получали меньше внимания со стороны учителя, чем в классах, усредненных по успеваемости. Наконец, преподаватели, вероятно, внутренне сопротивлялись предъявляемым к ним новым требованиям. Учителям, привыкшим вести курс «Алгебра I», вероятно, не доводилось учить плохо успевающих школьников, а учителя, которые много занимались с отстающими, скорее всего, не так хорошо умели преподавать алгебру. Все перечисленное и составляло непредвиденные побочные эффекты курса «Алгебра для всех». Анализ опосредования идеально подходит для оценки побочных эффектов.

В итоге Хон предположила, что среда обучения в классе изменилась и сильно повлияла на результаты данной интервенции. Другими словами, она постулировала, что ситуация соответствует каузальной диаграмме на рис. 61. Влияние среды (которое Хон измеряла как средний уровень знания предмета всех учеников в классе) действует как опосредующая переменная между интервенцией «Алгебра для всех» и итоговыми результатами учеников. Вопрос, как обычно в случае анализа опосредования, в том, какая часть воздействия образовательной программы прямая, а какая косвенная. Интересно, что два воздействия были противоположно направлены. Хон обнаружила, что прямое воздействие было положительно: новая образовательная программа прямо вела к увеличению итогового экзаменационного балла на 2,7 единиц. Это, по крайней мере, было изменением в правильном направлении, и оно оказалось статистически значимым (что свидетельствует, что подобное улучшение может произойти само по себе с низкой вероятностью). Тем не менее из-за изменения среды обучения в классе непрямое воздействие практически обнуляло это улучшение, уменьшая баллы за экзамен на 2,3 единицы. Хон пришла к заключению, что особенности реализации программы «Алгебра для всех» значительно подрывают ее эффективность. Если же сохранить программу обучения, но вернуться к дореформенному принципу составления классов, она должна привести к некоторому небольшому улучшению экзаменационных оценок (и, хотелось бы надеяться, знаний школьников).

Рис. 61. Каузальная диаграмма для эксперимента «Алгебра для всех»

По счастливому совпадению именно это и произошло. В 2003 году государственные школы Чикаго (теперь возглавляемые Дунканом) начали новую реформу, называвшуюся «Алгебра в двойном размере». По ее правилам всем школьникам все-таки приходилось учить алгебру, но у тех учеников, чьи отметки оказывались ниже, чем средние по стране, должен был быть не один урок алгебры в день, а два. Этот момент устранил нежелательный побочный эффект предыдущей реформы. Теперь по крайней мере раз в день плохо успевающие ученики оказывались в той среде обучения, которая была близка к дореформенной. Программа «Алгебра в двойном размере» была просто обречена на успех, и она продолжается по сей день.

Я полагаю, что история «Алгебры для всех» — это успех и в случае анализа опосредования, потому что он объяснил как не особо впечатляющие результаты исходной программы, так и улучшившиеся результаты после ее усовершенствования. Хотя причинно-следственная связь обнаружилась слишком поздно, чтобы влиять на подгонку образовательной программы в реальном времени, она ответила на наш вопрос «Почему?» после того, как появились факты: почему у исходной программы были такие незначительные результаты? почему следующая реформа сработала лучше? Таким образом, она может управлять реформой в будущем.

Я хочу обратить ваше внимание на еще один интересный момент в работе Хон. Она хорошо знала о подходе Барона и Кенни к прямым и непрямым воздействиям, который я назвал Линейной Страной Чудес. В своей статье она на самом деле выполнила анализ дважды: один раз с использованием разновидности Формулы Опосредования, второй раз с помощью «общепринятых процедур» (ее слова) по Барону и Кенни. Методом Барона — Кенни непрямое воздействие выявить не удалось. Причина этого, скорее всего, в том, о чем я писал раньше: линейные методы не чувствительны к взаимодействиям между экспериментальной и опосредующей переменной. Вероятно, сочетание более сложного материала и менее благоприятной среды обучения в классе вызвало рост разочарования и ухудшение успеваемости у учеников. Убедительно ли это? Я считаю, что да. Алгебра — сложный предмет. Возможно, именно из-за ее сложности двойное внимание учителей по программе «Алгебра в двойном размере» оказалось особенно ценным.

Ген курильщика: опосредование и взаимодействие

В главе 5 я рассказывал про научные и политические войны вокруг проблемы курения в 50-х и 60-х годах ХХ века. Скептики того времени, включая Р. Э. Фишера и Якоба Ерушалми, утверждали, что очевидная связь между курением и раком легких может быть статистическим артефактом, возникающим из-за осложняющей переменной. Ерушалми полагал, что у курильщиков особый тип личности, а Фишер предполагал существование гена, который предрасполагает людей одновременно к курению и к развитию рака легких.

По иронии судьбы в 2008 году исследователи генома человека обнаружили, что Фишер был в некотором роде прав: действительно, существует ген, функционирующий очень похожим образом. Это открытие состоялось благодаря новой технике анализа генома, называемой «поиск ассоциаций по всему геному» (Genome-Wide Association StUdY; GWAS). Эта техника — прототип современных исследований по методу больших данных, который позволяет исследователям прочесать весь геном статистически, высматривая варианты генов, которые чаще обнаруживаются у людей с определенными заболеваниями, например шизофренией, или диабетом, или раком легких.

В названии метода важно отметить слово «ассоциация». Этот метод не доказывает наличие причинно-следственной связи: он всего лишь находит гены, ассоциированные с данным заболеванием в данной выборке. Это метод, основанный на данных, а не на гипотезе, поэтому для выявления причинно-следственных связей им пользоваться неудобно.

Хотя предыдущие генетические исследования, базирующиеся на проверке гипотезы, не смогли обнаружить свидетельства связи курения или рака легких с определенными генами, все изменилось в одночасье в 2008 году. В этом году исследователи обнаружили ген в 15-й хромосоме, кодирующий рецепторы никотина в клетках легкого. У этого гена есть официальное название — rs16969968, но это сложно даже для экспертов в геномике. Поэтому его стали называть «Большой» или «мистер Большой» из-за его очень сильной ассоциированности с раком легких. «Среди изучающих курение слова „мистер Большой” понятны всем», — говорит Лаура Биерут, эксперт по проблеме курения в Университете Вашингтона в Сент-Луисе. Я же просто буду называть его геном курильщика.

Тут, как мне кажется, нам должен явиться сварливый призрак Р. Э. Фишера, звеня цепями в подвале и требуя отозвать из печати все то, о чем я писал в главе 5. Да, ген курильщика ассоциирован с раком легких. У него есть два варианта: один обычный, другой более редкий. Люди, у которых оказываются две копии редкого варианта (таких примерно 1/9 всех людей), заболевают раком легких на 77 % чаще. Ген курильщика оказывается также связан с поведением при курении. Людям с опасным вариантом требуется больше никотина, чтобы почувствовать насыщение потребности, и им сложнее бросить курить. Однако есть и хорошие новости: эти люди лучше реагируют на никотинзамещающую терапию, чем люди с обычным, «некурящим» вариантом этого гена.

Открытие такого гена не должно никого сбивать с толку относительно на порядок более значимой причины возникновения рака легких — курения. Мы знаем, что оно ассоциировано с более чем десятикратным увеличением риска получить рак легких. Для сравнения: даже двойная доза гена курильщика увеличивает риск рака легких менее, чем вдвое. Это, конечно, серьезно, но несравнимо с той опасностью, которой вы подвергаете себя (безо всякого смысла), если регулярно курите.

Как обычно, полезно визуализировать обсуждаемый вопрос с помощью каузальной диаграммы. Фишер считал, что ген курильщика (тогда еще совершенно гипотетический) является осложнителем по отношению к курению и раку (рис. 62). Но в качестве осложнителя он и близко не объясняет чрезвычайно сильное воздействие курения на риск рака легких. Это, по сути своей, тот самый аргумент, который в 1959 году Джером Корнфилд привел в своей статье, ставшей решающей в споре вокруг гипотезы генетической предрасположенности.

Рис. 62. Каузальная диаграмма для примера с геном курильщика

Мы сможем легко перерисовать эту каузальную диаграмму так, как показано на рис. 63. В этом случае мы видим, что курение как привычка оказывается опосредующей переменной между геном курильщика и раком легких. Это маленькое изменение точки зрения ставит наш научный спор полностью с ног на голову. Вместо того чтобы спрашивать, вызывает ли курение рак (теперь мы знаем ответ на этот вопрос), мы задаемся вопросом, как работает неблагоприятная версия гена. Заставляет ли она ее обладателей курить чаще и вдыхать глубже? Или же она каким-то образом делает клетки легких более уязвимыми по отношению к раку? Что сильнее, непрямое воздействие или прямое?

Рис. 63. Каузальная диаграмма для примера с геном курильщика после перегруппировки

От ответа зависит решение проблемы. Если основное воздействие прямое, тогда людей с более опасным вариантом гена следует чаще тестировать на рак легких. Однако, если воздействие в основном непрямое, все упирается в курение. В этом случае мы должны рассказывать таким пациентам о том, что они в группе риска и им важно даже не начинать курить. Если они уже курят, нужно вмешиваться более активно, возможно, предлагая никотинзамещающую терапию.

Тайлер Ван дер Виль, эпидемиолог из Гарвардского университета, прочитал первое сообщение о гене курильщика в журнале «Нэйча» и связался с группой исследователей в Гарварде, возглавляемой Дэвидом Кристиани. С 1992 года Кристиани просил своих пациентов с раком легких, а также их друзей и родственников заполнять опросники и сдавать образцы ДНК в помощь программе исследования. К середине 2000-х годов он собрал данные о 1 800 пациентах с раком легких, а также о 1 400 лицах, не больных раком, в качестве контрольной группы. Когда Ван дер Виль позвонил, образцы ДНК еще лежали в холодильнике. Результаты его анализа на первый взгляд обескураживали. Он обнаружил, что риск рака легкого за счет непрямого воздействия увеличивался всего лишь на величину от 1 до 3 %. Люди с более опасным вариантом гена курили в среднем только на одну сигарету в день больше, что было недостаточно для клинической значимости. Тем не менее их организм реагировал на курение иначе. Воздействие гена курильщика на развитие рака легких было большим и значимым, но только для тех, кто курил. Из этого вытекает интересное предположение относительно подачи результатов. В этом случае контролируемое прямое воздействие КПВ (0) будет, в общем-то, равно нулю: если вы не курите, ген вам не вредит. Однако, если мы придадим опосредующей переменной значение, равное одной или двум пачкам в день, что я обозначу как КПВ (1) или КПВ (2), воздействие гена окажется сильным. Натуральное прямое воздействие усредняет эти контролируемые воздействия. НПВ оказывается положительным, и именно в таком виде оно и было представлено в отчете Ван дер Виля.

Этот пример — классический образец взаимодействия переменных из учебника. В итоге анализ Ван дер Виля доказывает про ген курильщика три важных момента. Во-первых, он лишь незначительно увеличивает потребление сигарет. Во-вторых, он не вызывает рак легких каким-нибудь независимым от курения путем. В-третьих, для тех, кто курит, он значительно увеличивает риск рака легких. Все упирается во взаимодействие гена курильщика и поведения его обладателя.

Как всегда в случае любого нового результата, требуются дополнительные исследования. Биерут указывает на одну проблему с анализом Ван дер Виля и Кристиани: в нем был только один параметр, по которому оценивалось поведение курящих — число выкуренных сигарет в день. Тем не менее вполне может оказаться, что люди с опасным вариантом гена вдыхают дым глубже, чтобы получить бóльшую дозу никотина за одну затяжку. В гарвардском исследовании просто не было данных для проверки этой гипотезы.

Даже несмотря на то, что некоторая неопределенность остается, исследование гена курильщика дает нам представление о том, как может быть устроена персонализированная медицина в будущем. Совершенно ясно, что в этом случае важно, как взаимодействуют генетика и поведение конкретного человека. Мы все еще не знаем, меняет ли ген поведение человека, как предполагает Биерут, или просто взаимодействует с тем поведением, которое возникло бы независимо от него (как следует из анализа Ван дер Виля). Тем не менее, зная генетический статус людей, мы в состоянии обеспечить людей более точной информацией о тех рисках, которые им угрожают. В будущем каузальные модели, способные выявлять взаимодействия между генами и поведением, либо генами и средой обитания, обязательно станут полезными инструментами эпидемиолога.

Жгуты: скрытая обманчивость

В первый же день службы, прибыв в госпиталь в Багдаде, Джон Крэг, военный хирург, столкнулся с новыми реалиями медицины в условиях военных действий. Рассматривая доску с записями состояний больных в этот день, он заметил дежурной медсестре: «Как интересно — в эту смену применялось наложение жгута».

«Ничего особенного, — ответила медсестра, — у нас каждую смену накладывают».

В самые первые минуты на новой службе Крэг обнаружил огромные изменения, происшедшие в практике лечения ранений в войнах в Афганистане и в Ираке. Хотя их многие столетия использовали как на поле боя, так и на операционном столе, отношение к применению жгутов всегда оставалось противоречивым. Жгут, наложенный на слишком долгое время, приводил к потере конечности. Кроме того, жгуты по необходимости часто изготовлялись из того, что имелось под рукой, поэтому неудивительно, что их эффективность лучше всего описывалась фразой «Авось поможет». После Второй мировой войны жгуты стали считать крайним средством и их наложения официально рекомендовали избегать.

Войны в Ираке и Афганистане радикально поменяли такую политику применения. Это объяснялось двумя моментами: большее количество серьезных травм требовало применения жгутов, и к тому же стали доступны жгуты более удобных конструкций. В 2005 году главный хирург армии США рекомендовал, чтобы каждый солдат был экипирован медицинским жгутом. К 2006 году, как обнаружил Крэг, в госпитали каждый день доставляли солдат со жгутами, наложенными на ноги или руки, — беспрецедентная ситуация в истории медицины.

С 2002 по 2012 год, по оценкам Крэга, жгуты спасли жизни более чем 2 тысячам военных. Солдаты на фронтах это заметили. Как писал хирург армии США Дэвид Веллинг, «боевые подразделения выходят на опасные миссии со жгутами на конечностях наготове, потому что хотят вовремя остановить опасное кровотечение, если взорвется мина или самодельное взрывное устройство».

Если делать выводы из свидетельств очевидцев и популярности жгутов в бою среди солдат, их польза не должна подвергаться сомнению. Тем не менее крупномасштабных исследований по результатам применения этого средства было немного или даже не было совсем. В мирной жизни случаи, требующие использования жгутов, слишком редки, а в боевых условиях хаос войны не позволяет поставить правильно спланированный научный эксперимент. Но Крэг обнаружил возможность документировать последствия их применения. С помощью медсестер он собирал все данные о всех больных, поступающих в госпиталь с наложенными жгутами, и вскоре его уже прозвали «доктор-жгутовик».

Результаты исследования, опубликованные в 2015 году, оказались далеки от того, что ожидал Крэг. По опубликованным данным, выживаемость пациентов, поступивших в госпиталь с наложенными жгутами, была не выше, чем у пациентов с такими же травмами, но без жгутов. Конечно, теоретизировал Крэг, те из них, кому потребовалось накладывать жгут, могли изначально получить более серьезные увечья. Но даже когда он ввел поправку по этому фактору, сравнивая случаи равной тяжести, жгуты все равно не увеличивали вероятность выживания (табл. 13).

Таблица 13. Данные по выживаемости раненых с применением жгутов и без них

Это не та ситуация, с которой мы сталкивались в парадоксе Симпсона. Не имеет значения, объединяем ли мы данные или разделяем их на страты: в каждой категории опасности травм, как и в объединенной выборке, выживание было несколько выше у солдат, которым не накладывали жгуты (разница в процентах выживших была, однако, слишком мала для статистической достоверности).

Что же пошло не так? Один из возможных вариантов ответа, конечно, что жгуты не помогают. Наша вера в них может быть случаем «ошибки выжившего». Когда солдату накладывают жгут и он выживает, врачи и однополчане говорят: «Жгут спас ему жизнь». Но если солдат выжил после ранения, а жгут не накладывали, никто не скажет: «Ненакладывание жгута спасло ему жизнь». Таким образом жгуты могут обретать незаслуженную славу, а отсутствие интервенции остается незамеченным.

Однако в этом исследовании мог быть и еще один источник искажений, на который указал сам Крэг: врачи собирали данные только по тем пациентам, которые прожили достаточно долго для того, чтобы их успели доставить в больницу. Чтобы понять, почему это происходит, нарисуем каузальную диаграмму (рис. 64).

Рис. 64. Каузальная диаграмма для примера со жгутами. Пунктирная линия обозначает гипотетическое причинностное воздействие (не поддерживаемое данными)

На этом рисунке мы видим, что переменная опасность травмы является осложнителем для всех трех переменных: экспериментальной (наложение жгута), опосредующей (выживание до лечения) и итога (выживание после лечения). Поэтому оправданно и необходимо вводить поправки по опасности травмы, как Крэг и делал в своей статье.

Однако, поскольку Крэг изучал только пациентов, которые прожили после ранения достаточно долго для того, чтобы их довезли до госпиталя, он таким образом вводил также поправки по опосредующей переменной выживание до лечения. На практике он таким образом блокировал непрямой путь от использования жгутов к выживанию после лечения и вычислял прямое воздействие, обозначенное пунктирной стрелкой на рис. 64. Это воздействие практически равно нулю. Тем не менее возможно все же и непрямое воздействие. Если благодаря жгутам больше солдат доживает до госпиталя, тогда наложение жгута — очень желательная интервенция. Это означает, что смысл жгута в том, чтобы доставить пациента до больницы живым: когда это сделано, от него больше нет толку. К сожалению, в имеющихся данных (см. табл. 13) нет ничего, что опровергало или подтверждало бы эту гипотезу.

Уильям Крускал некогда печалился, что нет такого Гомера, который бы воспел подвиги на поле боя статистики. Я бы хотел воспеть научный подвиг Крэга, которой в невообразимо сложных условиях смог мыслить четко, собрать данные и подвергнуть стандартную процедуру научному тестированию. Его пример, как маяк, освещает путь всем, кто хотел бы заниматься медициной на основе наблюдаемых данных. Особо горькая ирония заключалась в том, что его исследование не могло увенчаться успехом, потому что он никаким образом не мог собрать данные по бойцам, которые погибли, не успев попасть в госпиталь. Было бы замечательно, если бы он смог доказать раз и навсегда, что жгуты спасают людям жизнь. Как писал сам Крэг в электронном письме, «я не сомневаюсь, что наложение — это оправданная мера». Но в итоге ему пришлось доложиться о «нулевом результате», а такие результаты не попадают в газетные заголовки. Тем не менее он заслуживает уважения за здоровые научные инстинкты.

Назад: Знакомьтесь с «если бы»

Дальше: Глава 10. Большие данные, искусственный интеллект и важные вопросы