Экстраординарные утверждения
(Блог, январь 2011 года)
Я симпатизировал Дэрилу Бему еще с 1994 года, когда в Psychological Bulletin появилась его соавторская работа: метаанализ, предположительно демонстрировавший воспроизводимые доказательства экстрасенсорных феноменов. Я воспользовался ей в «Морских звездах», когда искал какой-нибудь способ оправдать ограниченную телепатию, проявлявшуюся у рифтеров в обедненной среде. Бем и Хонортон подарили мне надежду, что нет вещей, безумных настолько, что нельзя найти в рецензируемом журнале статью для их подтверждения, если хорошенько поискать.
Вдобавок они подарили мне надежду, что экстрасенсорика может на самом деле существовать. Есть до хренища вещей, в которые я бы с удовольствием поверил, найдись им доказательства, но не могу, потому что считаю себя эмпириком. Однако если бы обнаружилось доказательство существования телепатии? Предвидения будущего? Телекинеза? Разве это было бы не круто? А Бем не был чудаком: он был (и остается) почитаемым специалистом в сфере общественных наук (оставим пока этот оксюморон в стороне) из Корнелла, причем одним из лучших в своем деле. У него есть авторитет.
Но из этого ничего не вышло. Были ворчанье и возражения насчет стандартизации исследований и того, насколько обоснована трактовка статистики, – типичные жалобы, всплывающие всякий раз, когда анализ переходит на метауровень. Больше всего мне тогда запомнилась точка зрения (упомянутая в обсуждении), будто эти результаты, что о них ни думай, как минимум настолько же убедительны, как те, на основе которых запускаются в продажу новые лекарства. Мне она понравилась. Она давала перспективу (хотя по прошествии лет ясно, что она скорее говорила о плачевном состоянии контроля качества в фарме, чем о вероятности того, что Кэрри Уайт поубивает своих одноклассников на выпускном).
В общем, Бем вернулся и на этот раз наделал куда больше шуму: Journal of Personality and Social Psychology опубликует результаты девяти экспериментов, восемь из которых должны продемонстрировать статистически значимые доказательства не только существования экстрасенсорики, но и настоящего предвидения будущего. В New York Times среагировали раньше всех; остальные, от Time до Huffington Post, встрепенулись и побежали следом. Бо́льшая часть реакций в непрофильных СМИ была предсказуема и довольно бестолкова: Time ошибочно принимает объяснение Бемом того, как он учитывал артефакты исследования, за своего рода признание, что эти артефакты он вообще не учитывал; Winnipeg Free Press попросту упоминает его исследования как один из нескольких примеров во время продолжительных стенаний об упадке рецензируемой науки. Возможно, самую обоснованную критику предлагают Вагенмакерс и др. (в статье, которая должна появиться в одном выпуске с работой Бема) и Джеймс Олкок в тексте, опубликованном на сайте Skeptical Inquirer (который стал причиной своего рода трехстороннего обмена пощечинами с Бемом и одним из его соратников). И хотя я ни в коем случае не отметаю все контраргументы, даже заявления некоторых наиболее эрудированных скептиков кажутся немного подозрительными – а то и недобросовестными – тому, кто на самом деле прочитал исходный материал.
Я не буду закапываться в подробности; почитайте источники, если вам интересны практические моменты. Но, говоря в общем, мне нравится то, что задумал сделать Бем. Он взял классические, давно испытанные психологические тесты – и просто провел их задом наперед. Например, наши воспоминания о каких-то предметах обычно сильнее, если нам довелось с этими предметами взаимодействовать. Если кто-то покажет вам кучу картинок, а потом попросит, скажем, систематизировать часть из них по цвету, вам будет легче вспомнить те, что вы систематизировали, чем остальные, когда впоследствии вам снова продемонстрируют весь набор (это называется «прайминг»). Так что будет, задался вопросом Бем, если вас протестируют на этих картинках до того, как попросят с ними взаимодействовать? Если вы отреагируете преимущественно на те, с которыми еще не имели дела, однако будете иметь дело когда-нибудь в будущем, значит, вы создали некий обратный поток информации. Разумеется, как только ученый узнает, что выбрали его подопытные, у него появится искушение, условно говоря, помочь пророчеству исполниться; однако это можно обойти, полностью устранив людей из процесса и доверив программам и генераторам случайных чисел решать, какие изображения использовать для прайминга.
Я оставлю конкретные протоколы каждого эксперимента на самостоятельное чтение тем, кто хочет полазать по ссылкам, однако в целом подход был простым. Взять устоявшийся причинно-следственный тест; провести его задом наперед; если показатели предпрайминга выше случайных, засчитать это как победу. Бем также заявил, что с эволюционной точки зрения секс и смерть должны быть мощными мотиваторами. В саваннах плейстоцена редко попадались казино и фондовые биржи, а вот знание (пусть и безотчетное), что через десять минут кто-то попытается тебя сожрать – или что в ближайшем будущем тебе встретится потенциальный половой партнер, – что ж, оно определенно предоставило бы тебе эволюционное преимущество над тем, кто не был экстрасенсом. Поэтому Бем использовал пугающие или эротические картинки, надеясь повысить вероятность значимых результатов.
Заметим также, что тысяча-или-около-того участников его эксперимента изначально не знали, что делают. Не было никаких явных испытаний на экстрасенсорику, никаких карточек со звездами или волнистыми линиями. Эти люди знали только, что должны догадаться, в какой части скрытого от них монитора находится картинка. Им не говорили, что на ней изображено.
Когда картинка была нейтральной, их выбор был чисто случайным. А вот когда она была порнографической или страшной, они угадывали чаще, чем промахивались. Результат был незначительным: мы говорим о примерно 53 % попаданий вместо ожидаемых 50 %. Однако, согласно статистике, результат наблюдался в восьми из девяти экспериментов.
Конечно, сейчас все кому не лень выискивают в экспериментах дыры. Это нормально; это наша обязанность – так все и работает. Возможно, самая серьезная претензия, та единственная, что имеет значение, – никто пока не смог повторить результаты Бема. Это гораздо важнее, чем отдельные придирки, звучавшие в последние несколько дней, – отчасти хотя бы потому, что некоторые из этих придирок выглядят, ну, довольно глупо. (Сам Бем отвечает на некоторые нападки Олкока.)
Давайте по-быстрому пройдемся по некоторым методологическим обвинениям, которые выдвигали люди: «Методология Бема не была последовательной. Бем логарифмически преобразовывал данные; о-о-о, наверное, он это делал потому, что непреобразованные данные не давали ему нужные результаты. Бем провел несколько тестов, не делая поправку на то, что чем больше тестов ты проводишь на одной выборке, тем выше шанс случайно получить значимые результаты». Вот лишь несколько.
Может быть, моя подготовка полевого биолога заставляет меня быть более снисходительным к таким вещам, но я не считаю корректировку методов особенно возмутительной, когда это делается, чтобы адаптироваться под новые данные. Например, Бем обнаружил, что мужчины слабее, чем женщины, реагируют на уровень эротики в его изначальной подборке порно (чему, будучи мужчиной, я охотно верю: обложки любовных романов из серии Harlequin меня вообще не возбуждают). Поэтому для участников-мужчин он поднял рейтинг изображений с R до XXX. Полагаю, он мог бы и дальше использовать нестимулирующие изображения, даже осознав, что они не работают, точно так же, как ихтиолог мог бы продолжать использовать ту же самую сеть, даже обнаружив, что ячейки в ней слишком крупные для поимки того вида, который он изучает. В обоих случаях методология была бы «последовательной». А еще это была бы пустая трата времени.
Также Бема критиковали за использование тестов на статистическую значимость (т. е. он задавал вопрос «какова вероятность, что эти результаты – всего лишь случайность?»), а не байесовских методов (т. е. «если наша гипотеза верна, каковы шансы получить эти конкретные результаты?»). (Кэри приводит хорошую сравнительную графику для этих двух подходов в New York Times). Подозреваю, что этот упрек может быть справедлив. Мои претензии к байесовским методам в том, что они берут за отправную точку твое собственное предвзятое мнение: ты с самого начала можешь выбрать вероятность того, что телепатия существует, и вероятность того, что это не так. Если данные будут противоречить выбранной вероятности, теорема чуть подправит ее, чтобы при следующем повторении эксперимента она больше соответствовала полученным данным; но очевидно, что если, по вашему изначальному предположению, есть 99,9999999999 % вероятности, что предвидение – это чушь собачья, то потребуется гораздо больше данных, чтобы изменить это число, чем если вы начинаете с чушевероятности всего в 80 %. Вагенмакерс и др. привязывают это к знаменитому высказыванию Лапласа: «Экстраординарные утверждения требуют экстраординарных доказательств» (к которому мы вернемся под конец поста), однако это можно сформулировать и иначе – чем сильнее предрассудок, тем сложнее от него избавиться. А Байес по определению использует предрассудок в качестве стартовой площадки.
Вагенмакерс и др. прогнали цифры Бема через байесовские техники, начиная со стандартных «базовых» значений изначальных вероятностей (какие именно это были значения, они не сказали, хотя и сослались на источник). Они нашли «значимые» подтверждения предвидения (Гипотезы1) лишь в одном из девяти экспериментов Бема и «значимые» подтверждения его отсутствия еще в двух (они утверждают, что в трех, но, кажется, почему-то рассмотрели шестой эксперимент Бема дважды). Потом они прогнали те же данные повторно, используя различные стартовые значения, отличавшиеся от «базовых», просто чтобы убедиться, и заключили, что их выводы обоснованны. За деталями этого анализа они отсылают читателя к выложенному онлайн приложению. Я не могу показать вам график, который там можно найти (по остающимся неясными причинам Tachyon до странного неохотно соглашается нарушать закон об авторском праве), но подпись к нему в том числе гласит:
«Результаты, подтверждающие Гипотезу1,
не убедительны нигде, за исключением,
возможно, нижней правой панели».
Позвольте мне решительно заявить, что неискренность этого «возможно» граничит с откровенной ложью. Нижняя правая панель вне всяких сомнений подтверждает Гипотезу1. И даже если предположить, что эти ребята попали в точку со всей своей критикой; даже если предположить, что они успешно разнесли в пух и прах восемь из девяти претензий Бема на значимость, – они своими же расчетами подтверждают, что доказательство реальности предвидения существует. И тем не менее не могут заставить себя признать это, даже в подписи, которой противоречит их собственный график.
В какой-то степени именно решение Бема сделать свою работу легко повторяемой повесило ему на грудь эту конкретную мишень. Он избрал методы, широко известные и утвердившиеся в исследовательском сообществе; он категорически отверг мудреную статистику, предпочтя ей простую, с которой было бы удобно иметь дело другим социологам. («С байесианской точки зрения было бы логичнее поверить в то, что в дебрях сложной экспериментальной процедуры или незнакомого статистического анализа кроется некая неизвестная ошибка или артефакт, чем в то, что была продемонстрирована подлинная экстрасенсорика, – пишет он. – Ввиду этого необходимыми орудиями убеждения стали простота и известность».) Предвидя, что у некоторых могут вызвать вопросы предположения о характере распределения, лежащие в основе t-тестов, он логарифмически преобразовал свои результаты, чтобы нормализовать их перед анализом; это и вдохновило Вагенмакерса и др. на мрачные размышления о том, «какими были непреобразованные показатели времени реакции – показатели, о которых не сообщалось». Бем также прогнал данные через непараметрические тесты, при которых не делается никаких предположений о характере распределения; из-за этого Олкок жалуется на необъясненные избыточные тесты, ничего не добавляющие к анализу (несмотря на то, что Бем открытым текстом изложил свою мотивацию), и на использование множества тестов без поправки на увеличенные шансы ошибочных результатов.
Последнее замечание верно в принципе, но не в данном случае. Каждый аспирант знает то отчаянное замирание в груди, которое возникает, если в результатах не прослеживается никаких закономерностей; искушение проводить бесконечные тесты и пересчеты в надежде, что – господи, пожалуйста – появится хоть что-то. Но у Бема уже были значимые результаты; он использовал альтернативные методы анализа на случай, если эти результаты были в чем-то артефактными, и продолжал получать значимые результаты вне зависимости от того, с какой стороны подходил к проблеме. Там, откуда я родом, обычно считается хорошим знаком, если разные подходы дают один и тот же результат.
Бем также учел вероятность того, что в алгоритмах, которые использовал компьютер, чтобы рандомизировать выбор картинок, может присутствовать какая-то тенденциозность; поэтому он повторял свои эксперименты с использованием разных генераторов случайных чисел. Он предъявил все свои записи, все неряшливые куски, которые обычно не демонстрируют, когда хотят показать результат своей работы в рецензируемом журнале. Он не просто выдержал стандарты строгости, принятые в его сфере: он их превзошел, и четыре рецензента (хоть и необязательно поверивших его результатам) не смогли отыскать методологических или аналитических изъянов, достаточных, чтобы не допустить работу к публикации.
Даже оппоненты Бема это признают. Вагенмакерс и др. открытым текстом говорят:
«Бем играл по негласным правилам, которыми руководствуются научные издания, – собственно говоря, Бем предоставил гораздо больше обоснований, чем требовалось бы обычно».
Они не могут логически атаковать работу Бема, не атакуя психологию в целом. Так они и поступают:
«…из нашей оценки следует, что в том, как экспериментальные психологи планируют свои эксперименты и сообщают о своих статистических данных, есть что-то глубоко неправильное. Тревожно думать, что результаты многих экспериментов, которые гордо и уверенно объявляются в литературе реальными, могут на самом деле основываться на статистических тестах, являющихся пробными и пристрастными (см. также Иоаннидис, 2005). Мы надеемся, что статья Бема станет сигналом к переменам, начертанным на стене посланием: психологи должны изменить методики анализа своих данных».
И знаете, может, они и правы. Мы, биологи, всегда посматривали на этих недалеких эзотериков из корпуса гуманитарных наук почти с таким же презрением, с каким физики и химики смотрели на нас в те времена, когда у нас еще не было этой штуки, называемой генной инженерией. Я с радостью соглашусь, что психология ущербна. Но если эта дисциплина действительно в таком плачевном состоянии, почему тревожным сигналом не послужила ни одна из менее обоснованных работ? Почему вы проспали столько десятилетий бездарной аналитики, только чтобы наброситься на статью, которая, по вашему же признанию, написана лучше других?
Как думаете, стал бы кто-нибудь с таким энтузиазмом потрошить методологию Бема, если бы тот заключил, что доказательств предвидения не существует? Вот вам подсказка: критика Олкока тщательно разбирает все эксперименты Бема, кроме № 7. Возможно, в этом седьмом эксперименте все пошло как надо, думаете вы. Возможно, Олкок сделал ему поблажку, потому что методология Бема хоть раз оказалась безукоризненной? Дадим же слово самому Олкоку:
«Процент догадок в этом эксперименте значительным не был. Поэтому я избавлю читателя от своих рассуждений».
По-видимому, плохую методологию незачем критиковать, если ты согласен с результатами.
Это плавно подводит нас к, возможно, самому главному возражению против работы Бема, к самой распространенной рефлекторной реакции, которая одновременно пронизывает и обусловливает методологические нападки: чистейшее головокружительное недоверие. «Это херня. Это не может не быть херней. В этом, черт побери, нет никакой логики».
Этого не может быть. Следовательно, этого нет.
Конечно, никто не станет формулировать это так прямо. Они скорее скажут, что «в физике нет механизма, способного объяснить эти результаты». Вагенмакерс и др. дошли до того, что заявили, будто эффект Бема не может быть реальным, потому что никто не разоряет казино по всей планете благодаря своим телепатическим умениям; с точки зрения логики это эквивалентно заявлению, будто защитные панцири не могут быть адаптивными, потому что лобстеры не являются пуленепробиваемыми. Что касается избитого аргумента, будто не существует никакого теоретического механизма, способного объяснить эти результаты, то я не могу придумать более эффективного способа затормозить науку, чем отбрасывать любые данные, не вписывающиеся в нашу текущую модель реальности. Если бы все так думали, Земля до сих пор оставалась бы плоским диском посередине хрустальной Вселенной.
Некоторые люди лучше других справляются со своей недоверчивостью. (Один из рецензентов статьи заметил, что находит результаты «смехотворными», однако все равно рекомендовал ее к публикации, потому что не смог отыскать изъяна в методологии или анализе.) Другие же находят прибежище в мантре: «экстраординарные утверждения требуют экстраординарных доказательств».
Я всегда думал, что это неплохая мантра. Если бы кто-то сказал мне, что мой друг напился и въехал на машине в телефонный столб, я бы отнесся к этому скептически из верности другу, однако фотография места происшествия меня, скорее всего, убедила бы. Люди, бывает, напиваются (особенно мои друзья); несчастные случаи происходят. Но если бы тот же источник сообщил мне, что летающая тарелка захватным лучом стащила машину моего друга с дороги, одной фотографии было бы недостаточно. Я бы всего лишь потянулся за руководством по «Фотошопу», чтобы выяснить, как ее подделали. Экстраординарные утверждения требуют экстраординарных доказательств.
Вопрос – сейчас, во второй декаде XXI века – следующий: что такое «экстраординарное утверждение»? Сто лет назад экстраординарным стало бы утверждение, что кот может быть жив и мертв одновременно; пятьдесят лет назад экстраординарным стало бы утверждение, что жизнь возможна в условиях температур, превышающих температуру кипения воды, на глубине в несколько километров под поверхностью Земли. Двадцать лет назад экстраординарным было бы заявление, что Вселенная не просто расширяется, но расширяется все быстрее. Сегодня физика допускает теоретическую возможность путешествий во времени (на самом деле, как мне говорили, вся эта тема со стрелой времени всегда вызывала у физиков вопросы; бо́льшая часть их уравнений работает в обе стороны, не нуждаясь в однонаправленном течении времени).
Да, я знаю. Я подбираюсь опасно близко к той же защитной истерике, которую устраивает каждый псих-эзотерик, столкнувшись с сомнениями в Целительной Силе Петуний: «Ага, конечно, тысячу лет назад все тоже верили, что мир плоский». Разница в том, что эти психи выдвигают свои аргументы, не имея подлинных доказательств в поддержку своих утверждений, а ответом скептиков по всему миру всегда было: «Покажите нам данные. Есть оговоренные стандарты доказательств. Покажите нам цифры, P-значения, покажите хоть что-нибудь, способное миновать в крупном журнале стадию рецензирования уважаемыми исследователями с прочной репутацией. Вот стандарты, которым вы должны соответствовать».
Как часто мы это слышали? Как часто указывали, что у чудиков-уфологов и Бригады Призраков никогда не получается ничего опубликовать в рецензируемой литературе? Как часто мы объясняли, что их так называемые «доказательства» не соответствуют нашим стандартам?
Что ж, Бем взял эту планку. И некоторые отреагировали тем, что подняли ее выше. Все это время мы требовали, чтобы параученые подчинялись тем же стандартам, что и все остальные, и наконец-то паранаука справилась с этим требованием. И теперь мы говорим, что они должны соответствовать иному стандарту, более высокому стандарту, потому что делают экстраординарные заявления.
Все это вызывает у меня глубокое беспокойство. Я не то чтобы верю, будто существование предвидения доказано, – это не так. Пока нет независимого повторения результатов Бема, я остаюсь скептиком. И меня не особенно злит сущность претензий, хоть я и думаю, что некоторые из них граничат с откровенной недобросовестностью. Я известен как тот парень, который считает науку яростной дракой между соревнующимися предубеждениями, чаще субъективными, чем нет. (С другой стороны, если бы я изо всех сил пытался опровергнуть доказательства существования предвидения и все равно получал бы «значимые» подтверждения в одном случае из девяти, то не стал бы заметать это под ковер с помощью фраз типа «не убедительны нигде» и «за исключением, возможно» – я бы говорил: «Срань господня, чувак, возможно, преувеличил свои достижения, но, кажется, в этом все равно что-то есть…»)
Однако я начинаю сомневаться в принципе Лапласа. Я начинаю думать, действительно ли мудро предъявлять более высокие стандарты доказательства к любому утверждению, которое на этой неделе кажется нам наиболее противоречащим здравому смыслу. Постоянно применяемый порог значимости – 0,05 – может быть произвольно выбранным, но он хотя бы свободен от прихотей общественных стандартов. Начиная вещать об экстраординарных утверждениях, вы должны дать им определение, а лучшее определение, которое получилось сформулировать у меня, звучит так: «Любое утверждение, которое не соответствует нашему текущему пониманию того, как все работает». Неизбежный вывод из этой формулировки таков, что нынешний взгляд на мир всегда верен; мы определенно уже разобрались в природе реальности, и все, что свидетельствует об обратном, вызывает у нас особое подозрение.
Что, уж простите меня за такие слова, само по себе звучит как довольно экстраординарное утверждение.
Возможно, стоит назвать его следствием Галилея.