Книга: Думай «почему?». Причина и следствие как ключ к мышлению
Назад: Гнев фанатика
Дальше: E pur si muove (и все-таки она вертится)

Сьюалл Райт, морские свинки и путевые диаграммы

Когда Сьюалл Райт прибыл в Гарвардский университет в 1912 году, его образование на тот момент вряд ли предсказывало долговременный эффект, который он произведет в науке. Он учился в маленьком (и ныне закрытом) колледже Ломбард в Иллинойсе, и в его выпуске было всего семь студентов. Одним из преподавателей был его собственный отец Филип Райт — швец, жнец и на дуде игрец от науки, на нем держалась даже типография колледжа. Сьюалл и его брат Квинси помогали отцу в печатном деле, и помимо прочего в их типографии был издан первый сборник тогда еще неизвестного поэта и студента Ломбарда Карла Сэндберга.
Сьюалл Райт поддерживал тесную связь с отцом еще долгие годы после окончания колледжа. Когда Сьюалл переехал в Массачусетс, папа Филип последовал за ним. Позже, когда Сьюалл работал в Вашингтоне, там же трудился и Филип, сначала в Американской тарифной комиссии, а потом в Брукингском институте экономистом. Хотя их академические интересы сильно разошлись, они находили способы сотрудничать, и Филип стал первым экономистом, использовавшим путевые диаграммы, изобретенные его сыном.
Райт-младший приехал в Гарвард изучать генетику, в то время одно из самых активно развивавшихся направлений в науке, потому что теория Грегора Менделя о доминантных и рецессивных генах была только что открыта заново. Научный руководитель Райта Уильям Касл идентифицировал восемь различных наследственных факторов (или генов, как бы мы назвали их сегодня), влияющих на цвет меха у кроликов. Касл предложил Райту провести аналогичное исследование на морских свинках. Защитив диссертацию в 1915 году, Райт получил предложение работы, для которой никто не подходил лучше него: работать с морскими свинками в Департаменте сельского хозяйства США (United States Department of Agriculture; USDA).
Сейчас остается только гадать, понимали ли в департаменте, кого они берут на работу. Возможно, им просто нужен был ответственный зоотехник, который мог бы привести в порядок 20-летний архив, все это время представлявший собой полный хаос. Райт сделал не только это, но и намного, намного больше. Морские свинки для Райта стали движущей пружиной всей его карьеры и ключевым звеном в его теории эволюции, совсем как галапагосские вьюрки для Дарвина. Райт был одним из ранних приверженцев идеи, что эволюция не идет постепенно, как предполагал Дарвин, а происходит посредством относительно внезапных рывков.
В 1925 году Райт перешел на ставку на кафедре в Чикагском университете, которая, вероятно, лучше подходила человеку столь разносторонних научных интересов. Однако и там он по-прежнему оставался предан морским свинкам. Часто рассказывают анекдот, что однажды во время лекции он держал под мышкой особо буйную морскую свинку и по рассеянности вдруг начал стирать ей с доски вместо тряпки. Хотя все жизнеописатели Райта согласны, что эта история скорее всего апокриф, подобные детали обычно говорят о личности намного больше, чем сухие биографии.
Нас в этой главе больше всего интересует начало работы Райта в USDA. Наследование окраски меха у морских свинок упорно отказывалось подчиняться законам Менделя. Оказалось практически невозможным получить чисто белую или разноцветную свинку, и даже самые инбредные линии (после многих поколений скрещиваний только между братьями и сестрами) все еще обнаруживали значительную изменчивость окраски, от преимущественно белой до преимущественно разноцветной. Это противоречило предсказанию менделевской генетики, согласно которому после большого числа поколений близкородственных скрещиваний признак «закрепляется». Райт начал сомневаться, что процент белого в окраске определяется одной только генетикой, и постулировал, что часть изменчивости определяется «внутриутробными факторами» во время беременности. Задним числом мы знаем, что он был прав. Различные гены окраски экспрессируются по-разному в различных частях тела, и распределение окраски зависит не только от генов, которые унаследовало животное, но и от того, где именно и в каких комбинациях будет происходить их экспрессия или подавление.
Как это часто случается (по крайней мере, с гениями!) под давлением требующей решения проблемы на свет появился новый метод анализа, который теперь применяется гораздо шире, чем в родной генетике морских свинок. Однако для Сьюалла Райта оценка внутриутробных факторов развития, вероятно, казалась задачей студенческого уровня, с которой он мог бы справиться на уроках своего отца в колледже Ломбарда. Когда нужно найти величину некоторой переменной, требуется сначала дать ей обозначение, затем выразить все, что известно об этой переменной и ее связях с другими переменными в виде математических уравнений, и, наконец, если хватит терпения и уравнений, их удастся решить и получить значение нужной переменной.
В примере Райта нужная неизвестная величина (показанная на рис. 15) была обозначена d — воздействие внутриутробных факторов развития (development) на появление белой окраски. Другие каузальные переменные в уравнении Райта включали h — наследственные (hereditary) факторы, также неизвестные. Наконец (и в этом проявляется гениальность Райта), он показал, что, если бы нам были известны каузальные переменные на рис. 11, мы могли бы предсказать корреляции в данных (не показанных на диаграмме) на основе простого графического правила.

 

Сьюалл Райт был первым, кому удалось разработать математический метод для ответа на каузальные вопросы исходя из данных — путевых диаграмм. Сильнее его любви к математике была только его страсть к морским свинкам.

 

Это правило перебрасывает мост от глубокого, скрытого мира причин во внешний, очевидный мир корреляций. Это был попытка установить связь между причинностью и вероятностью, самое раннее преодоление пространства между первой и второй ступенью Лестницы Причинности. Построив этот мост, Райт мог двигаться по нему и обратно, от корреляций, вычисляемых на основе данных (ступень первая), к скрытым каузальным переменным d и h (ступень вторая). Он достиг этого, решая алгебраические уравнения. Такая идея, скорее всего, представлялась Райту очень простой, но она оказалась революционной, потому что это было первым доказательством, что мантра «Корреляция не подразумевает причинно-следственных связей» должна уступить место утверждению «Некоторые корреляции как раз подразумевают причинно-следственные связи». В заключение Райт продемонстрировал, что гипотетические факторы внутриутробного развития влияют на окраску сильнее, чем наследственность. В случайно скрещивающейся популяции морских свинок 42 % изменчивости окраски обусловлено генетикой, а 58 % — факторами внутриутробного развития. По контрасту в высоко инбредной линии только 3 % изменчивости в расположении белой окраски по частям тела определялась наследственностью, а 92 % — факторами развития. Иными словами, 20 поколений близкородственных скрещиваний почти элиминировали наследственную изменчивость, но факторы, действующие во время развития плода, сохранились.
Как ни интересен этот результат, ключевым моментом для нашей истории является то, каким образом Райт решил данную задачу. Путевая диаграмма на рис. 11 — это дорожная карта, которая объясняет нам, как перемещаться по мосту между первой и второй ступенью. Это целая научная революция в одной картинке — и с умилительными морскими свинками в придачу! Обратите внимание, что путевая диаграмма показывает все мыслимые факторы, способные влиять на окраску детеныша морской свинки. Буквы D, E и H относятся к факторам внутриутробного развития, средовым влияниям и наследственным факторам соответственно. Каждый родитель (отец и мать) и каждый потомок (О и О’), испытывает влияние своего набора факторов D, E и H. У двух потомков общие средовые факторы, но различные истории внутриутробного развития. Диаграмма включает новые в то время для науки идеи менделевской генетики: наследственность потомка определяется сперматозоидом и яйцеклеткой его родителей (G и G’’), а их наследственный материал, в свою очередь, определяется наследственностью самих родителей (H’’ и H’’’) посредством некоего процесса перемешивания, который на ту пору не был известен (ДНК тогда еще не открыли). Было понятно, впрочем, что перемешивание включает некоторый элемент случайности (обозначенный на диаграмме как «Случайность»).

 

Рис. 11. Первая путевая диаграмма Сьюалла Райта, показывающая все факторы, влияющие на окраску меха у морских свинок: D — факторы внутриутробного развития (от зачатия до рождения); E — средовые факторы (после рождения); G — генетические факторы от каждого из родителей; H — объединенные наследственные факторы от обоих родителей, O, O’ — потомство. Целью анализа была оценка силы воздействия факторов D, E, H (на диаграмме приведенных как d, e, h).

 

Один момент диаграмма не отражает прямо — разницу между обычной и инбредной семьями. В последней будет сильная корреляция между наследственностью отца и матери, что Райт отметил обоюдонаправленной стрелкой между H’’ и H’’’. Кроме этой, все остальные стрелки на диаграмме направлены в одну сторону и ведут от причины к следствию. Например, стрелка от G до H означает, что наследственный материал сперматозоида отца имеет прямое каузальное влияние на наследственность потомства. Отсутствие стрелки от G до H’ означает, что сперматозоид отца, давший жизнь потомку О, не влиял каузально на потомка О’.
Эти буквы, называемые путевыми коэффициентами, отражают силы каузальных воздействий, которые Райт хотел найти. Грубо говоря, путевой коэффициент отражает долю изменчивости в конечной переменной, которая определяется исходной переменной. Так, достаточно очевидно, что 50 % наследственности любого потомка передается от каждого из его двух родителей, поэтому а должно быть равно ½ (по техническим причинам Райт предпочитал брать квадратный корень, так чтобы а = 1/ √2 и а 2 = ½). Такая интерпретация путевых коэффициентов, в терминах доли изменчивости, объясняемой данной переменной, в те времена была разумной. Современная причинная интерпретация иная: путевые коэффициенты представляют собой результаты гипотетического воздействия исходной переменной. Однако появления концепции воздействия в 40-х годах ХХ века нужно было ждать еще долго, и Райт, который написал свою статью в 1920 году, не мог ей воспользоваться. К счастью, в простых моделях, проанализированных им тогда, обе интерпретации приводят к одинаковым результатам.
Я хочу подчеркнуть, что путевая диаграмма не просто красивая картинка, это мощный вычислительный аппарат, потому что правило для подсчета корреляций (мост со второй на первую ступень) включает прослеживание путей, соединяющих две переменные между собой, и перемножение коэффициентов, встреченных по пути. Обратите также внимание, что опущенные на рисунке стрелки на самом деле выражают более важные допущения, чем те, которые на нем присутствуют. Не изображенная стрелка означает, что каузальное воздействие равно нулю, в то время как присутствующая стрелка ничего не говорит нам о силе воздействия (если только мы априорно не придадим путевому коэффициенту определенное значение).
Работа Райта была настоящим прорывом и заслуживает упоминания в качестве эпохального результата в биологии. Несомненно, это важнейшая веха в истории науки о причинности. Рис. 11 — первая опубликованная каузальная диаграмма, первый шаг ХХ столетия на вторую ступень Лестницы Причинности, и шаг не робкий, а уверенный и обдуманный! На следующий год Райт опубликовал намного более общую работу под названием «Корреляция и причинность», объясняющую, как путевой анализ работает на другом материале, не только на морских свинках. Не могу представить, какую реакцию на свою публикацию ожидал Райт, но то, что воспоследовало, определенно ошеломило его. Это было опровержение, опубликованное в 1921 году неким Генри Найлзом, учеником американского статистика Раймонда Пирла, который, в свою очередь, был учеником Карла Пирсона, крестного отца статистики.
Академический мир полон цивилизованного людоедства, и мне за свою в основном тихую научную карьеру тоже приходилось испытывать его на собственной шкуре, но все же мне редко попадались настолько злобные критики, как Найлз. Он начинает с длинной серии цитат из своих героев, Карла Пирсона и Фрэнсиса Гальтона, доказывая избыточность или даже бессмысленность термина «причина». Он делает вывод: «Противопоставление „причинности” и „корреляции” необоснованно, потому что причинность — это просто совершенное проявление корреляции». В этом предложении он прямо повторяет то, что Пирсон писал в своей «Грамматике науки».
Далее Найлз старается принизить всю методологию Райта. Он пишет: «Главная ошибка этого метода — предположение, что возможно априори задать относительно простую графическую схему, которая будет верно отражать пути воздействия нескольких переменных друг на друга и на общий результат». Наконец, Найлз разбирает несколько примеров и, путаясь в расчетах, поскольку не дал себе труда разобраться в правилах, установленных Райтом, приходит к противоположным выводам. В итоге он заявляет: «Таким образом, мы заключаем, что с точки зрения философии основания метода путевых коэффициентов ложны, в то время как на практике результаты применения его там, где возможна проверка, доказывают его совершенную ненадежность».
С научной точки зрения тратить время на детальный разбор опровержения Найлза, вероятно, не стоит, но его статья очень важна для нас, историков науки о причинности. Во-первых, она бесхитростно отражает отношение большинства ученых того поколения к причинности и тотальную власть его наставника Карла Пирсона над научными умами того времени. Во-вторых, возражения Найлза мы продолжаем слышать и сегодня. Конечно, иногда ученые не представляют с точностью всю сложную сеть взаимоотношений между изучаемыми переменными. В этом случае, предполагал Райт, мы можем использовать диаграмму в исследовательском режиме; мы можем постулировать определенные причинно-следственные отношения и рассчитать предсказанные корреляции между переменными. Если они противоречат объективным данным, у нас появляется свидетельство, что отношения, допущенные нами, ложны. Этот способ применения путевых диаграмм, вновь открытый в 1953 году Гербертом Саймоном (ставшим в 1978 году лауреатом Нобелевской премии по экономике), вдохновил множество исследований в общественных науках.
Хотя нам и не нужно знать все причинно-следственные взаимоотношения между интересующими нас переменными и мы в силах делать некоторые выводы, обладая только частичной информацией, Райт подчеркивает один момент с абсолютной четкостью: каузальные выводы невозможно сделать, не имея каузальной гипотезы. Это перекликается с теми выводами, которые мы сделали в главе 1: невозможно ответить на вопрос второй ступени Лестницы Причинности исключительно на основе данных первой ступени. Иногда меня спрашивают: не делает ли это каузальные умозаключения тавтологичными, замкнутыми сами на себя? Разве тем самым вы не предполагаете именно то, что хотите доказать? Правильный ответ — нет. Объединяя очень приблизительные, качественные и очевидные предположения (например, что цвет меха у потомства не влияет на цвет меха родителей) с данными по морским свинкам за 20 лет наблюдений, Райт получил количественный и совершенно неочевидный результат: окраска меха на 42 % определяется наследственностью.
Получить неочевидный результат из очевидных данных — это не тавтология, это научный триумф, заслуживающий, чтобы ему воздали соответствующие почести. Вклад Райта уникален, потому что информация, приведшая к умозаключению (о наследственной компоненте в 42 %) была на двух разных и почти несовместимых математических языках: языке диаграмм, с одной стороны, и языке данных — с другой. Еретическая идея объединения качественной «путевой» информации и количественной информации данных (два чуждых друг другу языка!) была чудом, которое привлекло меня, специалиста по компьютерным наукам, к этой проблематике. Многие люди до сих пор повторяют ошибку Найлза, думая, что цель каузального анализа — доказать, что X — это причина Y, или просто найти причину Y с нуля. Это проблема каузальных открытий, которая была моей честолюбивой мечтой еще в те времена, когда я впервые погрузился с головой в графическое моделирование, и до сих пор остается областью активного научного поиска. Напротив, исследования Райта, как главы этой книги, сосредоточены на том, чтобы представить правдоподобные представления о причинно-следственных связях с помощью какого-либо математического языка, объединить их с эмпирическими данными и ответить на вопросы о причинности, имеющие практическое значение. Райт с самого начала понимал, что каузальные открытия, поиск причин — дело намного более сложное, если вообще реальное. В своем ответе Найлзу он пишет: «Автор [т. е. сам Райт] никогда не претендовал на то, что теория путевых коэффициентов может дать нам общую формулу для выяснения причинно-следственных взаимодействий. Он хотел бы подчеркнуть, что сочетание знаний о корреляциях со знанием причинно-следственных связей для получения конкретных результатов не имеет ничего общего с выведением причинно-следственных взаимоотношений из корреляций, о котором пишет Найлз».
Назад: Гнев фанатика
Дальше: E pur si muove (и все-таки она вертится)