Природа познания
Наука занята выяснением природы вещей и того, как они работают. Она проливает свет на то, что находится в темноте. Но темные данные лежат в основе самой науки, причем в очень конкретном смысле. Наука становится таковой, если к ней применим критерий Поппера (в честь Карла Поппера), или фальсифицируемость. Основная идея заключается в том, что вы выдвигаете некое потенциальное объяснение изучаемого явления (теорию, догадку или гипотезу), а затем проверяете его, наблюдая, насколько прогнозируемые вашим объяснением последствия соответствуют тому, что происходит на самом деле. Если перевести на язык этой книги, то для подтверждения или опровержения нашей теории, мы должны сопоставить данные, которые она прогнозирует, с полученными экспериментальными данными. Если прогнозные данные не соответствуют действительности, то теория заменяется на другую, модифицируется или расширяется, пока не станет не только успешно подтверждать прошлое, но и предсказывать будущее. В некотором смысле это пример DD-типа 15: экстраполяция за пределы ваших данных. Разница в том, что такая экстраполяция является преднамеренной и осуществляется с целью тестирования теории.
До победы научной революции (да и после нее, хотя это не всегда признается) успехи познания сдерживались (как правило, подсознательным) нежеланием собирать данные, которые могли бы опровергнуть теорию, — такова уже упоминавшаяся выше предвзятость подтверждения. Проще говоря, развитию науки препятствовало нежелание сделать темные данные видимыми. В конце концов, если у вас имеется солидная теория, которой уже несколько веков, зачем искать данные, которые противоречат ей? Вспомнить хотя бы миазматическую теорию, господствовавшую в Европе, Индии и Китае с древнейших времен вплоть до XIX в., которая гласила, что эпидемии вызваны ядовитыми парами гниющей материи.
Вот мой любимый исторический пример того, как обнаружили подобную проблему. Философ Фрэнсис Бэкон писал: «Человеческое понимание, единожды утвердившись во мнении… начинает выискивать все, что согласуется с ним и подтверждает его. И хотя на другой чаше весов фактов может быть куда больше, тем не менее оно либо просто пренебрегает ими, выражая свое презрение, либо отклоняет их каким-то иным способом». Бэкон проиллюстрировал опасность игнорирования данных на примере человека, который проповедовал, подтверждая свои слова изображениями людей, спасшихся после кораблекрушения благодаря молитве. Бэкон спросил его, где портреты людей, которые, несмотря на свои молитвы, все же утонули?
Классическим примером сбора данных для проверки теории являются наблюдения сэра Артура Эддингтона и Фрэнка Дайсона, целью которых было подтвердить или опровергнуть общую теорию относительности Эйнштейна. Теория предсказывала, что траектория световых лучей будет изгибаться при прохождении света вблизи массивных объектов. Идеальным массивным объектом для наблюдений могло бы стать Солнце, поскольку кривизну светового потока легко обнаружить благодаря видимому смещению положений звезд, чьи лучи на пути к Земле проходят вблизи нашего светила. Но дело в том, что Солнце своим излучением перебивает свет других звезд, за исключением тех случаев, когда его закрывает Луна. По этой причине в 1919 г. сэр Артур Эддингтон возглавил экспедицию на Принсипи, остров у западного побережья Африки, а Фрэнк Дайсон — в Бразилию, чтобы из разных точек наблюдать солнечное затмение, происходившее 29 мая. Их фотографии и измерения видимых положений звезд во время затмения подтвердили предсказания общей теории относительности. Это показало, что ньютоновская механика является упрощением и приближением по сравнению с новой теорией Эйнштейна, которая дает лучшее описание реальности. Свет воссиял не только в буквальном, но и в метафорическом смысле!
Это описание того, как работает наука, позволяет понять одну очень важную вещь: никогда нельзя быть уверенным, что вы обнаружили «реальный» механизм явления. Наука дает объяснения, каждое из которых становится все более точным по мере углубления познания, но всегда остается возможность опровержения любого из этих объяснений новыми экспериментальными данными (хотя чем больше экспериментальных данных будет предсказано новой теорией, тем сложнее это сделать). Такая вероятностная природа теорий, допускающая их изменение по мере поступления новых данных, — это то, что отличает науку, например, от религии, которая никак не связана с доказательствами. Поэтому имейте в виду, что, когда для удобства я буду называть ту или иную научную теорию истинной или верной, это не значит, что новые данные не смогут ее изменить.
Проще говоря, наука — это процесс. В частности, она не является набором известных фактов, хотя для простоты, особенно при обучении, научный процесс зачастую подают именно так. Например, в школе периодическую таблицу элементов и законы Ньютона преподают как некий незыблемый факт, а вовсе не как результат тщательной проверки идей посредством наблюдений. Дети, конечно, должны понимать окружающий мир, но, возможно, мы совершаем здесь досадное упущение: научное образование в наших школах должно стать естественной колыбелью критического мышления, давая детям наряду с констатацией фактов инструмент, который позволит им в будущем лучше оценивать любую информацию.
Идея фальсифицируемости, то есть вывода следствий из теории и последующего сопоставления их с фактическими данными, уходит своими корнями в далекое прошлое. Убежденность людей в том, что тяжелые объекты падают быстрее, чем легкие, была наглядно опровергнута предположительно Галилеем, который, бросая шары разной массы с Пизанской башни, показал, что они падают на землю одновременно.
Точно так же идея плоской Земли на первый взгляд соответствует фактам. По крайней мере, совершая путешествие, вы не чувствуете, что двигаетесь по изогнутой в большом масштабе поверхности. Но чем больше накапливалось данных, тем очевиднее становилось, что все не так просто. Одно из доказательств заключалось в том, что парусные корабли скрывались за горизонтом, начиная с корпуса и заканчивая верхушкой мачты.
Таким образом, фундаментальный научный процесс — это проверка теорий на основе наблюдений, результаты которых еще недавно представляли собой темные данные, когда несоответствие между теорией и данными заставляет отказываться от теории или изменять ее. Но необходимо понимать, что такое несоответствие может иметь и другие объяснения. Иногда несовпадение теории и данных может означать, что не все в порядке с данными. Я очень надеюсь, что многочисленные примеры, приведенные в этой книге, смогли убедить вас в том, что данным всегда сопутствует риск ошибок, неточности измерений, искажений выборки и прочих проблем. Вот почему ученые прилагают столько усилий, повышая точность измерительных приборов и проводя сами измерения в предельно контролируемых условиях, независимо от того, что они измеряют: массу, длину, время, межгалактические расстояния, интеллект, мнения, благополучие, ВВП, безработицу, инфляцию или что-то еще. Точные, надежные и заслуживающие доверия данные являются необходимым условием для научной истины.
Критерий проверяемости — это то, что отличает науку от лженауки. Придумывать объяснения несложно (например, «все дело в магии»), но, если они не подверглись строгому тестированию, мы должны относиться к ним с подозрением. Кроме того, теория, готовая объяснить любой из возможных экспериментальных результатов, тоже бесполезна — она не имеет ничего общего с наукой. Теория гравитации, которая утверждала бы, что предметы падают не только вниз, но и вверх, вбок, и вообще, куда придется, вряд ли была бы полезна. Напротив, объяснение Ньютона, что массы притягиваются друг к другу и поэтому тело падает вниз, вполне научно: его можно проверить. И после того, как верность теории многократно подтверждается данными, она становится частью канона знаний, и мы можем с ее помощью делать прогнозы и создавать устройства на ее основе.
Примером теории, которая обоснованно подвергается критике за свой всеобъемлющий характер, делающий ее ненаучной и бесполезной, является психоанализ. Фредерик Крюс в своей книге «Фрейд: Создание иллюзии» (Freud: The Making of an Illusion) наглядно продемонстрировал, что появление психоанализа представляет собой триумф темных данных, а именно: обобщения на основе неоправданно узкой выборки (в том числе на основе выборки из одного человека — самого Фрейда), нежелание видеть опровергающие теорию доказательства, неготовность признавать реальность (Крюс пишет об этом так: «Каждый фокусник надеется, что его аудитория будет состоять именно из таких зрителей, как Фрейд») и отрицание очевидных фактов. Возможно, наиболее показательным является именно то, что Фрейд никогда не признавал своей неправоты. Исследователь, не готовый признать, что его теория может быть ошибочной, вряд ли будет соответствовать критерию фальсифицируемости и, уж конечно, не может называться ученым. Это красноречиво доказывает и признание самого Фрейда: «На самом деле я вовсе не человек науки, не наблюдатель, не экспериментатор и не мыслитель. По темпераменту я не кто иной, как конкистадор, то есть авантюрист». Впрочем, такая оговорка не исключает того, что по крайней мере часть проблемы связана не с фигурой Фрейда, а с теми, кто некритически рассматривал мнение одного человека как непреложный факт.
Поскольку научный процесс заключается в проверке предположений на реальных данных, неудивительно, что первоначальные объяснения часто оказываются ошибочными. Если бы не это, то вся затея с познанием была бы куда проще. И хотя имена великих ученых увековечены благодаря теориям, которые хорошо объясняли эмпирические явления, это не означает, что те же самые ученые не выдвигали ошибочных теорий. Зачастую теория признается ошибочной спустя какое-то время, когда обнаруживается нечто, о чем не было известно, или, иными словами, когда появляются новые данные.
Одним из самых ярых критиков Чарльза Дарвина был сэр Уильям Томсон, который впоследствии стал лордом Кельвином (и в честь которого названа шкала температур). Это был один из самых выдающихся ученых своего времени, в 22 года получивший статус профессора математики в Кембридже и похороненный в Вестминстерском аббатстве рядом с Исааком Ньютоном (а теперь рядом с ними и Стивен Хокинг). Его предшественники пытались вычислить возможную продолжительность существования Солнца, исходя из предположения, что оно сжигает некое ископаемое топливо, такое как уголь, но Кельвин понимал, что в этом случае процесс горения длился бы всего несколько тысяч лет. Поэтому он развил гипотезу Германа фон Гельмгольца о том, что Солнце постепенно сжимается и что гравитационная энергия, выделяемая при сжатии, преобразуется в тепло и свет. Но даже при этих условиях Солнце не могло гореть так долго, чтобы на Земле в ходе эволюции успела появиться жизнь. Поэтому он и утверждал, что теория эволюции Дарвина не соответствует данным.
Однако Кельвин был неправ. В его аргументации отсутствовали важные данные, которые стали доступны лишь позже. Это были данные, свидетельствующие о том, что в энергии Солнца лежит не химическое горение или гравитация, а совершенно иной механизм — термоядерный синтез.
В процессе термоядерного синтеза ядра атомов сливаются в одно более тяжелое ядро. При этом теряется некоторая масса, что сопровождается выделением энергии. Коэффициент преобразования таков, что крошечная масса превращается в гигантское количество излучаемой энергии как при взрыве водородной бомбы. Топливом для реакций ядерного синтеза являются дейтерий (атом водорода, в ядре которого есть нейтрон и протон, — обычное ядро водорода не имеет нейтрона) и радиоактивный тритий (атом водорода, содержащий в своем ядре два нейтрона и протон), который получают в ядерных реакторах путем бомбардировки изотопа литий-6 нейтронами. Чтобы понять, какое количество энергии при этом генерируется, представьте, что половина ванны воды и литий из одной единственной батареи вашего ноутбука могут дать столько же электричества, сколько получается при сжигании 40 т угля. Такой источник энергии мог бы разом решить энергетические проблемы человечества и позволил бы нам отказаться от электростанций, работающих на ископаемом топливе и загрязняющих окружающую среду: реакция термоядерного синтеза является «чистой», поскольку не образует радиоактивных отходов. У нас бы появился свой маленький источник солнечной энергии.
Но есть проблема: если мы хотим провести такую реакцию на Земле, то для сближения атомов нам необходимо огромное давление и сверхвысокая температура. В настоящее время наиболее эффективным методом получить и то и другое является размещение слоя дейтерия вокруг ядерной бомбы. Но ядерное оружие никак не назовешь удобным или практичным методом энергоснабжения! Поэтому в мире сейчас осуществляется целый ряд крупных исследовательских проектов, нацеленных на решение проблемы получения давления и температур, необходимых для управляемого термоядерного синтеза, а также проблемы удержания полученной в результате высокоэнергетической плазмы. Поскольку плазма прожигает любой материал, она должна находиться внутри идеально настроенного магнитного поля, которое не позволяет ей соприкасаться со стенками физического контейнера. Хотя над такими проектами работают уже давно, еще ни разу не удалось получить больше энергии, чем было затрачено. (По этой причине о термоядерном синтезе иногда в шутку говорят, что до овладения им всегда остается 30 лет.)
Кельвин ошибся, потому что ничего не знал о термоядерном синтезе, но были и такие, кого ввели в заблуждение неверные данные. В 1989 г. два физика, Мартин Флейшман и Стэнли Понс, объявили, что им удалось осуществить холодный ядерный синтез без нагрева исходных материалов до невероятно высоких температур, просто пропуская электрический ток через раствор лития в оксиде дейтерия. Поскольку оксид дейтерия — одна из форм воды (называемая также тяжелой водой), запасы которой потенциально не ограничены, это произвело бы революцию в обществе. Заявление физиков, естественно, вызвало большой резонанс, и лаборатории по всему миру поспешили повторить эксперимент. Некоторые из них, как казалось, преуспели — например, лаборатории в Москве и Техасе, — но большинство потерпело неудачу.
На лекции в Научно-исследовательском атомном центре в Харуэлле, Великобритания, через несколько дней после сделанного для прессы заявления кто-то спросил Флейшмана, соответствовали ли начальные установки их эксперимента контрольным условиям. В данном случае таким контрольным условием должен был быть эксперимент с обычной водой, в молекулах которой водород не содержит нейтрона. Неожиданно Флейшман отказался отвечать на вопрос, и это вызвало подозрения (ну чем не темные данные?). Если не было параллельного эксперимента с использованием обычной воды, то отсутствовали и данные, необходимые для того, чтобы понять, какой именно механизм лежал в основе полученных Понсом и Флейшманом результатов. Позже появились и другие критические замечания в отношении их первоначального эксперимента, а затем и некоторые лаборатории, предположительно повторившие его, отозвали свои результаты. В настоящее время большинство ученых согласно с тем, что холодный синтез невозможно практически реализовать, хотя есть и такие, кто не перестал питать надежды. В конце концов, это стало бы новой эпохой для человечества.
Отсутствие данных также ввело в заблуждение химика Лайнуса Полинга, лауреата Нобелевской премии по химии и Нобелевской премии мира. Будучи, возможно, одним из величайших ученых всех времен, Полинг внес огромный вклад, расширив спектр химических и биохимических тем и опубликовав более тысячи статей. Он был одним из многих, кто пытался определить структуру ДНК в середине ХХ в. Изучая изображения, полученные с помощью электронного микроскопа, он предположил, что структура, вероятно, имеет спиральную форму. Для Полинга такое предположение не было чем-то невозможным — за годы своей основательной и скрупулезной работы он уже не раз убедительно доказывал, что спиральные структуры существуют у других молекул. Хотя у него не было рентгеновских изображений или точных данных о размерах и углах связи между атомами, он предположил, что ДНК представляет собой структуру из трех нитей. Хотя расчеты показали, что позиции, которые он отвел атомам, не вполне соответствовали имеющимся данным, Полинг чувствовал, что это просто вопрос выяснения деталей. Будучи хорошо осведомленным о результатах других команд исследователей, работающих над этой проблемой, в частности группы ученых из Кавендишской лаборатории в Кембридже, Англия, он был полон решимости первым опубликовать свою теорию. Так, 31 декабря 1952 г. Лайнус Полинг и его коллега Роберт Кори представили в журнале Proceedings of the National Academy of Science статью «Предполагаемая структура нуклеиновых кислот».
Два других исследователя, Фрэнсис Крик и Джеймс Уотсон из Кавендишской лаборатории, ранее уже предполагали, что структура представляет собой тройную спираль, но отвергли эту гипотезу на основе данных, предоставленных химиком и рентгеновским кристаллографом Розалинд Франклин. Когда Крик написал Полингу, указывая на некоторые проблемы в модели тройной спирали, Полинг сделал именно то, что подразумевает ранее описанный научный процесс: он попытался изменить свою теорию, чтобы соответствовать данным. Тем временем Крик и Уотсон искали альтернативные модели, и новые данные от Джерри Донохью, специалиста по водородным связям, позволили им найти такую альтернативу, которая соответствовала всем данным, — ту самую двойную спираль.
Какое-то время Полинг еще сопротивлялся и не хотел признавать свою неправоту, заявляя, что с нетерпением ждет возможности увидеть, какая из моделей окажется верной. Но когда в апреле 1953 г. он побывал в Кембридже, изучил структуру, предложенную Криком и Уотсоном, и посмотрел рентгеновские снимки, то мужественно признал, что его коллеги, похоже, действительно решили проблему.
Сама природа науки такова, что даже самые способные и выдающиеся ученые могут ошибаться, особенно если у них недостает данных. Например, лорд Кельвин, упомянутый ранее, хотя и был блестящим ученым, сделал немало ошибочных предложений. Когда Вильгельм Рентген объявил об открытии X-лучей, первое, что сделал лорд Кельвин, — обвинил его в обмане. Он также заявлял, что ни воздушный шар, ни аэроплан никогда не принесут практической пользы. А Альберт Майкельсон (тот самый, который вместе с Морли убедительно доказал специальную теорию относительности Эйнштейна) в 1894 г., незадолго до открытия квантовой механики и теории относительности, написал: «Кажется, большинство основополагающих принципов [физики] твердо установлено».
Сэр Фред Хойл — еще один выдающийся ученый, который создал теорию, опровергнутую при сравнении ее прогнозов с реальными данными. Хойл добился значительных успехов в понимании Вселенной, в частности, в вопросе происхождения тяжелых элементов. В науке господствовала теория о том, что элементы сформировались в самом начале существования Вселенной, но неожиданно расчеты показали, что некоторые этапы процесса объединения более легких элементов в более тяжелые слишком нестабильны. Хойл предложил альтернативное объяснение: тяжелые элементы могут быть синтезированы в звездах путем ядерного синтеза — процесса, который мы уже обсуждали выше. По словам Хойла, синтезированные в ядрах древних звезд, эти элементы разносятся по Вселенной в результате взрывов сверхновых. Именно так материя постепенно аккумулируется, образуя планеты, луны и нас с вами. Эта теория выдержала испытание временем, сделав Хойла одним из самых авторитетных британских физиков середины XX в. Но не все идеи Хойла были настолько успешными.
После того, как данные о расстоянии между Землей и звездами показали, что Вселенная расширяется, бельгийский физик Жорж Леметр логично предположил, что, возможно, Вселенная возникла миллиарды лет назад как крошечная сверхплотная и горячая точка. Поскольку понятие тестируемости является ключевым для науки, а проверить эту теорию, похоже, не представляется возможным, она не привлекла большого внимания. Но затем Хойл предложил альтернативу Большому взрыву Леметра (попутно и введя этот термин). Что, если Вселенная находится в состоянии непрерывного творения и новая материя появляется постоянно? Эта космологическая модель известна как теория стационарной Вселенной. Существование двух конкурирующих теорий всегда стимулирует поиск данных, поскольку хотя бы одна из них должна быть ошибочной. В этом случае постепенно накапливались доказательства в пользу теории Большого взрыва. Но Хойл не сдавался: он продолжал разрабатывать различные варианты стационарной гипотезы, чтобы сохранить свою теорию в игре до тех пор, пока доказательства против нее не стали очевидными.
Даже Альберту Эйнштейну доводилось выдвигать теории, которые были впоследствии опровергнуты данными. Его общая теория относительности показала, что масса искривляет пространство и время (именно это объясняет изгиб световых лучей, когда они проходят рядом с массивным объектом). В то время, когда Эйнштейн создавал общую теорию относительности, Вселенная считалась статичной. Однако поскольку вся материя притягивает всю другую материю, то Вселенная не сможет оставаться неизменной долгое время — она схлопнется. Чтобы преодолеть это возражение, Эйнштейн добавил в свои уравнения понятие космологической постоянной, описывающей силу отталкивания, которая противодействует гравитации. К сожалению, это понятие оказалось надуманным — полученные вскоре данные показали, что Вселенная не статична, а расширяется. Говорят, что Эйнштейн назвал введение космологической постоянной своей «самой большой ошибкой». Но в этом случае, пожалуй, он был несправедлив к себе. В конце концов, основываясь на данных, которые были доступны в тот момент, предположение, что существует некая дополнительная сила, было хорошей идеей. В целом, если новые данные, переставшие быть темными, не соответствуют теории, это не означает, что теория в момент ее выдвижения была несостоятельной. Однако эту историю ожидал еще один поворот.
Дальнейший сбор данных привел к открытию, что Вселенная не просто расширяется, а делает это все более быстрыми темпами. Это привело к предположению, что космологическая постоянная или по крайней мере нечто подобное (сегодня физики используют термин «темная энергия») должно существовать. Возможно, Эйнштейн все-таки был прав. Кстати, в своей превосходной книге «От Дарвина до Эйнштейна» астрофизик Марио Ливио выражает сомнение, действительно ли Эйнштейн выразился именно так: «самая большая ошибка». Ливио приписывает эту фразу физику Георгию Гамову.
Переходя от теоретической науки к медицине, мы обнаруживаем, что попытки облегчить страдания предпринимались еще на заре человечества, когда этой цели служили растения, минералы и магия. Тем не менее мы лишь недавно по историческим меркам начали правильно оценивать эффективность лечения, руководствуясь познаниями в биологии, физиологии, генетике и связанных с ними науках, лежащих в основе медицины. Поэтому неудивительно, что некоторые методы лечения еще не получили глубокой оценки и остаются в общей практике. Я имею в виду не такие вещи, как, например, идея о том, что у кого-то может быть слишком много крови и он нуждается в кровопускании, или же дискредитировавшие себя идеи, например, гомеопатия. Речь идет о некоторых методах, которые медицинское сообщество в целом считает эффективными, но в действительности они не подвергались тщательной оценке, например с помощью рандомизированного контролируемого исследования, по крайней мере до недавнего времени.
Метод префронтальной лоботомии является яркой иллюстрацией. Эта нейрохирургическая процедура широко использовалась во всем мире в течение нескольких десятилетий для лечения психических заболеваний, включая шизофрению и биполярное расстройство. Она заключается в разрыве соединений в префронтальной доле головного мозга. Первоначально эта операция проводилась путем высверливания отверстия в черепе и введения этанола для того, чтобы разрушить часть мозга, а позже для той же цели стали применять вращающуюся проволочную петлю. Самые последние разработки позволили хирургам получать доступ к лобным долям через глазницы. Изобретатель этой процедуры Антонио Эгас Мониш был награжден Нобелевской премией по медицине и физиологии в 1949 г. Эта награда была присуждена, несмотря на сомнения в эффективности процедуры: в редакционной статье 1941 г. в Journal of the American Medical Association говорится следующее: «Эту операцию нельзя считать способной преобразовать психотическую личность в нормальную. Даже сейчас, когда мы еще мало знаем о лобных долях, имеется достаточно доказательств серьезных нарушений, вызванных их удалением у лиц, не страдающих психотическим расстройством». Процедура имела массу побочных эффектов, таких как рвота, недержание мочи и кала, летаргия, апатия и множество других. На другой же чаше весов находилось утверждение, что лоботомия делает спокойнее и проще жизнь семей пациентов. По этому поводу кибернетик Норберт Винер сказал: «Позвольте мне мимоходом отметить, что убийство [таких пациентов] еще больше облегчает их содержание». К счастью, частота применения этой процедуры стала снижаться с середины прошлого века, когда были разработаны соответствующие лекарственные препараты. В настоящее время мы гораздо лучше понимаем мозг и любые нейрохирургические вмешательства представляют собой точные и тщательно контролируемые операции, сопровождающиеся сложными технологиями сканирования. Эти технологии позволяют нам видеть структуру мозга в трехмерном изображении, по сути, вытаскивая темные данные на свет.
Более свежим примером из медицины является артроскопическая операция для лечения остеоартрита коленного сустава. Эта широко используемая процедура обычно рассматривается как способ облегчения болевых симптомов. Но когда Брюс Мозли и его коллеги оценили эффективность артроскопии в рандомизированном контролируемом исследовании, сравнивая его с плацебо, то обнаружили, что «ни одна из оперативных групп не сообщала об уменьшении боли или улучшении функциональности больше, чем группа плацебо». Слепая вера в эффективность лечения не оправдана — необходимо четко установить последствия отказа от лечения, чтобы можно было провести сравнение.
В целом не стоит удивляться тому, что на периферии медицины до сих пор в ходу много неэффективных методов «лечения». Например, метаанализ, недавно проведенный Джунсоком Кимом и его коллегами, окончательно подтвердил, что «прием поливитаминов и минералов не улучшает исход сердечно-сосудистых заболеваний у населения в целом». Но людей трудно переубедить. Вместо того чтобы признать, что их убеждения могут быть ошибочными, они начинают ставить под сомнение доказательства — еще один пример предвзятости подтверждения. Возможно, самый убедительный пример этой предвзятости, который мы наблюдаем прямо сейчас, касается изменения климата. В контексте же медицины я хочу привести слова Джона Бирна: «Столкнувшись с реальностью отрицательных результатов корректно проведенных исследований, многие естественным образом начинают сами отрицать их. Врачи продолжают цепляться за те методы, которые им привычны. Витамин С до сих пор продолжают прописывать при простудных заболеваниях. То же самое касается препаратов от кашля. Многие хирурги все еще проводят артроскопические операции коленного сустава, и этот метод имеет активных защитников. Продажи фенофибрата, вероятно, еще долгие годы будут приносить огромные прибыли. Быть скептиком в медицине означает следовать за доказательствами, даже если (поначалу) вам может не нравиться то, к чему они ведут. Истинное сострадание всегда руководствуется истиной». А истина, в свою очередь, познается благодаря данным.
Иногда нам просто везет. Обычно темные данные представляют собой проблему, требующую серьезного поиска: от нас скрыто нечто, что могло бы изменить наше понимание и, скорее всего, повлиять на наши действия. Но иногда мы совершенно случайно натыкаемся на темные данные, и перед нами внезапно открывается целый мир.
Классическим примером такой ситуации служит открытие космического реликтового излучения. В 1948 г. Ральф Альфер и Роберт Херман предсказали, что Вселенная должна буквально купаться в низкотемпературном излучении, оставшемся с раннего периода ее развития после Большого взрыва. Шестнадцать лет спустя, в 1964 г., астрономы Арно Аллан Пензиас и Роберт Вудро Уилсон проводили измерения с помощью микроволнового радиометра Дикке. Первоначально этот прибор был создан для тестирования спутниковой связи, но Пензиас и Уилсон использовали его в качестве радиотелескопа. Однако они никак не могли устранить фоновые шумы — не помогало даже охлаждение антенны. Были изучены даже самые нелепые объяснения проблемы, например то, что шумы вызваны пометом голубей, облюбовавших радиометр. Прибор был очищен, но помехи не исчезли. По счастливому совпадению, Роберт Дикке, которого в тот момент как раз занимал поиск доказательств, подтверждающих идею о том, что после Большого взрыва осталось реликтовое излучение, посетил их лабораторию. Во время встречи с Пензиасом и Уилсоном он догадался, что они совершенно случайно наткнулись на те самые доказательства, которые он искал. В 1978 г. их открытие было отмечено Нобелевской премией по физике, которую они разделили с Петром Капицей, награжденным за его работу в области физики низких температур.
Мораль этой истории заключается в том, что, хотя большинство аномалий и сбоев в данных являются экспериментальными ошибками или неточностями измерений, некоторые из них могут привести к фундаментальным прорывам. Ниже приведено еще несколько интересных примеров таких случайностей.
Когда в ходе исследования химик Б. С. Субба Рао изучил 57 препаратов и обнаружил, что одно из них ведет себя аномальным образом, он хотел проигнорировать этот странный результат и опубликовать результаты, полученные на остальных 56 препаратах. Его решение имело смысл, поскольку 56 препаратов были подготовлены под тщательным контролем, в то время как процесс подготовки 57-го отличался. Но его сотрудник, американский химик английского происхождения Герберт Браун, почувствовал, что они должны докопаться до сути, и продолжил исследование. Это привело Брауна к открытию химической реакции, называемой гидроборированием, и к Нобелевской премии.
Немецкий инженер-механик и физик Уильям Рентген заметил, что пропускание тока высокого напряжения между двумя электродами в вакуумированной стеклянной колбе вызывало свечение платино-бариевого экрана, расположенного в трех метрах от него, хотя колба была закрыта плотным черным картоном. Так были открыты рентгеновские лучи.
Планета Уран также была случайно обнаружена немецким астрономом Уильямом Гершелем, когда он заметил едва видимый глазу объект, который изменил положение на фоне неподвижных звезд.
Говорят, что Александр Флеминг открыл пенициллин, перебирая чашки Петри с колониями бактерий Staphylococcus — он случайно заметил на одной из них плесень и обнаружил, что на этом участке не было бактерий.
В своей основополагающей работе «Структура научных революций» философ Томас Кун пишет: «Именно это и происходит с новыми фундаментальными фактами и теориями. Они создаются непреднамеренно в ходе игры по одному набору правил, но их восприятие требует разработки другого набора правил. После того как они становятся элементами научного знания, наука… никогда не остается той же самой». Однако будьте бдительны: все новое, аномальное и неожиданное, хотя и может оказаться вспышкой света, озаряющей скрытые темные данные, чаще бывает просто следствием неточности измерений или экспериментальных сбоев, которые делают данные нерезкими и отвлекают внимание.
В известной статье Джон Иоаннидис, профессор медицины и статистики в Стэнфорде, утверждает: «Можно доказать, что большинство заявленных результатов исследований являются ложными». Это смелое утверждение сделало его одним из самых цитируемых ученых.
Такая точка зрения вполне обоснованна, более того, причины для ее появления существуют уже на протяжении десятилетий. Благодаря тому, что Иоаннидис привлек к этой проблеме внимание, она получила неожиданно большой резонанс в научной и, в частности, медицинской исследовательской литературе, вызвав широкий интерес и спровоцировав волну опасений. И что еще более удивительно — последующие прения по этому вопросу показали, насколько широко распространены базовые заблуждения относительно самой природы научного процесса. Причем зачастую заблуждаются именно те, кто должен лучше всех знать ответы на острые вопросы: «Почему наука перестала удовлетворять основному критерию воспроизводимости?», «Нарушен ли процесс научного познания?», «Действительно ли наука столкнулась с кризисом воспроизводимости?».
Ниже приводятся некоторые цифры, позволяющие обосновать утверждение Иоаннидиса в контексте различных дисциплин.
Брюс Бут, партнер венчурной компании Atlas Venture, специализирующейся в области биологических наук, утверждает, что в соответствии с негласным правилом среди венчурных капиталистов ранней стадии по крайней мере 50% опубликованных исследований, даже те, которые публикуются в ведущих научных журналах, «не удается повторить с теми же результатами в промышленных лабораториях». Как следствие этого, Atlas Venture теперь требует независимой проверки в качестве предварительного условия для дальнейших инвестиций.
Опрос, проведенный журналом Nature, показал, что более 70% из 1576 респондентов пытались воспроизвести чужую работу и не смогли этого сделать. Конечно, не следует принимать результаты этого опроса за чистую монету — вполне вероятно, что они искажены темными данными. Например, те ученые, которые не смогли воспроизвести чью-либо работу в прошлом, были более склонны отвечать на вопросы, чем те, кто преуспел в этом деле. Или, возможно, было какое-то одно исследование с аномальными результатами, которые многие респонденты пытались, но не смогли воспроизвести (вспомните случай с холодным ядерным синтезом). Тем не менее даже с учетом этого их доля поразительно велика.
Гленн Бегли и Ли Эллис провели работу, нацеленную на воспроизведение результатов 53 ключевых доклинических исследований методов лечения рака. Они обнаружили, что результаты воспроизводятся только в 6 из 53 исследований, что составляет всего 11%.
Леонард Фридман и его коллеги приводят данные исследований, которые оценивают количество невоспроизводимых доклинических медицинских исследований в диапазоне от 51 до 89%. Оценка стоимости финансирования исследований, результаты которых не удалось позднее воспроизвести, показала, что они обходятся примерно в $28 млрд в год.
Основываясь на данных такого рода, Брайан Носек из Вирджинского университета возглавил проект «Воспроизводимость», в рамках которого была осуществлена попытка воспроизвести 100 исследований, опубликованных в 2008 г. в научной литературе по психологии. Из 97 исследований, которые первоначально дали статистически значимые результаты, команде Носека удалось повторить только 35. Как и следовало ожидать, сам проект Носека тоже не был бесспорным — некоторые ученые обратили внимание на серьезные недостатки его работы, такие как намеренный выбор 100 исследований для воспроизведения. Это справедливо говорит о том, что даже исследования темных данных могут страдать от проблем с ними связанных. Темные данные есть везде — и это не преувеличение.
Подобные выводы, безусловно, тревожат, но мы не должны ни на мгновение забывать, что наука — это процесс отсеивания. Многие критики, словно дети, придерживаются идеализированного взгляда на науку, полагая эксперимент неким разовым мероприятием, которое должно «доказать» или «опровергнуть» существование какого-либо явления. Но наука куда сложнее. И это нормально. Сама природа научных исследований указывает на то, что они проводятся на границах известного — там, где доминирует неопределенность. Поскольку исследователи пытаются выделить некий крошечный сигнал из шума, разумно ожидать, что часто этот шум будет влиять на результаты, сдвигая их в неверном направлении. В самом деле, мы могли бы пойти дальше и заявить, что, если бы не было экспериментальных результатов, которые не прошли тест на воспроизводимость, это означало бы, что ученые просто не выполняют свою работу. Иными словами, они недостаточно предприимчиво и креативно раздвигают границы нашего понимания.
Смысл всего вышесказанного заключается в том, что процесс научного познания не нарушен. Невоспроизводимость является признаком того, что наука остается наукой, что гипотезы проверяются, а те, которые не соответствуют действительности, в итоге отклоняются. Кроме того, мы видим, что наука действительно работает. Достаточно взглянуть на наши успехи в понимании природы и передовые технологии, воплощенные в материалах, машинах и медицине.
Однако, даже если научный процесс не нарушен, очевидно, чем меньше изначально неверных выводов, тем лучше (при условии, что верные научные теории отклоняются на раннем этапе не слишком часто). И путь к этому лежит через улучшение проектирования исследований. Но, кроме того, существуют аспекты научной культуры, которые часто побуждают людей идти на риск и заставляют переступать границу. Иоаннидис и многие из тех, кто высказывался на эту тему после, обращали внимание на эти аспекты. Мы еще вернемся к ним, но прежде проведем аналогию с космической программой США.
На заре ракетостроения, когда ракетные двигатели и системы лишь отрабатывались, границы нашего понимания того, как они поведут себя, были намного уже, и, естественно, сбои происходили довольно часто. Как описал Том Вулф в своей книге «Битва за космос», пессимизм ученых выражался короткой фразой: «Наши ракеты всегда взрываются». Всякий раз при исследовании границы вы непроизвольно переступаете черту, а иногда проводите даже до половины своего времени с той стороны, если сидите прямо на этой границе. И на основе этих результатов (возможно, в ракетостроении их принято называть «неудачами», но все-таки с научной точки зрения это «результаты»), благодаря тщательному проектированию вы пытаетесь попасть на «правильную сторону» в будущем, чтобы ваши ракеты не взорвались, а ваши научные выводы оказались верными. Но сама природа исследования означает, что вы рискуете. Это риск, на который приходится идти, чтобы узнать, где проходит граница.
Итак, какие аспекты научной культуры могут подтолкнуть исследователей к тому, чтобы оказаться не с той стороны границы, то есть к ложным утверждениям и невоспроизводимым результатам?
Понятие «предвзятость публикаций» описывает тот факт, что опубликованная научная литература не является достоверным представлением всей проводимой в науке работы. Это означает, что большое количество научных данных не опубликовано и пылится в ящиках столов или обрастает метафорической пылью на жестких дисках, на которые никто не заглядывает. Эти скрытые результаты являются не просто случайным выбором, они становятся таковыми из-за действия нескольких сил (DD-тип 3: выборочные факты). Одна из таких сил — склонность журналов отдавать предпочтение удивительным результатам и новшествам. Эксперимент, который привел к неожиданному результату, с большей вероятностью вызовет интерес, чем тот, о котором скажут: «Да, это именно то, что я ожидал».
Этот эффект «пылящихся файлов» привел к появлению «Журнала незначимых отклонений» (The Journal of Non-Significant Differences). В статистике «значимость» — чисто технический термин, и мы о нем еще будем говорить подробнее. Пока же вкратце: значимым результатом является тот, который вряд ли будет получен, если тестируемая гипотеза верна. Поэтому, если он все же получен, это заставляет усомниться в истинности гипотезы. И наоборот, незначимый результат — это тот, который подтверждает гипотезу, тот, о котором и говорят: «Да, это именно то, что я ожидал». «Журнал незначимых отклонений» публикует только те исследования, которые дают незначимые результаты, с целью донести «до понимания тот факт, что исследования не должны быть обязательно значимыми, чтобы обеспечить ценными сведениями процесс познания». (Между прочим, существует еще и «Журнал невоспроизводимых результатов» (The Journal of Irreproducible Results), основанный в 1955 г., но это журнал научного юмора — не перепутайте их!)
Почему же предпочтение оригинального и необычного может приводить к невоспроизводимым результатам? Да, экстремальные, нестандартные или аномальные значения могут возникать в силу истинности некоего явления: возможно, этот препарат действительно намного эффективнее, чем другие, или этот сплав действительно химически менее активен, чем ожидалось. Но такие значения чаще возникают по причине случайных колебаний. Случайное совпадение исходных условий (примеси в препарате или сплаве, участники психологического эксперимента, подверженные погодному влиянию) или простая ошибка измерения могут привести к неожиданно высоким или низким значениям. В конце концов, как мы успели убедиться, никакие измерения не являются абсолютно точными и никогда две экспериментальные установки или образцы не будут полностью идентичными.
Из этого следует, что маловероятно, чтобы такая же случайная конфигурация или ошибка измерения повторилась при воспроизведении эксперимента. В среднем, как мы уже видели в главе 3, когда исследовали возврат к среднему значению, следует ожидать, что последующие репликации приведут к значениям, которые будут менее экстремальными. Нас не должно удивлять, если аномальный результат исчезнет, и мы должны ожидать, что «заявленные результаты исследований окажутся ложными», как выразился Иоаннидис. С точки зрения этой книги необычно экстремальные значения возникают из-за определенного вида темных данных — ошибки измерения, которая искажает базовые значения.
Склонность редакторов научных журналов публиковать только будоражащие воображение результаты — лишь конечное звено цепи. За ним скрывается тот факт, что авторы сегодня стараются не писать статей, которые, по их мнению, имеют слабые шансы быть принятыми к публикации, а это уже имеет довольно неожиданные последствия.
Особый престиж исследованиям придают публикации в авторитетных журналах, таких как Nature или Science, имеющих значительный коэффициент влиятельности, или импакт-фактор. Это показатель, основанный на количестве цитирований журнальных статей, то есть характеризующий степень уделенного им внимания. Исследователи с большей вероятностью предоставят престижным журналам впечатляющие «прорывные» результаты, чем результаты более скромные, но не менее важные просто потому, что понимают их предпочтения (DD-тип 4: самоотбор). Это, в свою очередь, означает, что журналы, как правило, выделяют и публикуют наиболее захватывающие достижения из предложенных к публикации, что еще выше поднимает и без того высокий престиж впечатляющих результатов (DD-тип 11: искажения обратной связи и уловки). Но такие выдающиеся результаты будут, скорее всего, невоспроизводимы по причине возврата к среднему значению, о чем мы уже говорили. Кроме того, подобная ситуация провоцирует некоторых исследователей подгонять результаты своей работы, чтобы увеличить шансы на публикацию в журналах с высоким импакт-фактором (как мы увидим позже, зачастую честный выбор значений от выбора мошеннического отделяет очень тонкая грань). Вследствие этого, более престижные журналы, скорее всего, будут публиковать менее достоверные результаты.
Как ни странно, но информация, публикуемая в ведущих научных журналах, с меньшей вероятностью оказывается истинной. Однако, похоже, именно к такому выводу сегодня приходят авторы. Так, Феррик Фанг и его коллеги сообщают, что ими «была обнаружена значимая корреляция между импакт-фактором журнала и частотой отзыва научных статей из-за допущенных ошибок, намеренного искажения результатов или подозрений на это».
Ирония заключается в том, что следует избегать публиковаться в источниках, которые имеют высокий уровень ложных результатов. Иначе говоря, сторониться наиболее престижных журналов?.. Да, все это крайне запутанно! Но не стоит забывать, что причинно-следственные связи порой бывает довольно сложно установить. Чем влиятельнее журнал, тем по определению шире круг его читателей, а значит, публикуемые в нем статьи подвергаются более тщательному анализу, который подразумевает, что сомнительные выводы с высокой вероятностью будут обнаружены, даже если их уровень не выше, чем в других журналах.
Частичное решение проблемы состоит в том, чтобы публикации новых результатов основывались на более чем одном исследовании, то есть независимые воспроизведения должны проводиться до момента публикации (вспомним «негласное правило» Брюса Бута). Так уже делается, например в фармацевтическом секторе, где лекарства, представленные на одобрение регулирующими органами, должны иметь подтверждение нескольких клинических испытаний. Но в других контекстах, особенно в академических исследовательских кругах, приоритет публикаций является ключевым показателем эффективности, и исследователи не хотят рисковать, давая другим возможность застолбить открытие (вспомните стремление Лайнуса Полинга опубликовать свою статью о структуре нуклеиновых кислот). Они предпочитают поскорее объявить об открытии, которое может стать крупным прорывом, даже если существует риск признания его ошибочным.
Стремление сделать эффектное открытие привело к практике препарирования данных бесконечным множеством методов и реконфигурирования наборов данных до тех пор, пока не будет найдено что-то существенное. Например, сравнивая две группы пациентов, мы можем измерить 100 характеристик каждого пациента, а затем сравнить средние значения двух групп по каждой из них. Было бы удивительно, если бы при этом не обнаружилось хотя бы несколько существенных отличий между группами — исключительно из-за случайных ошибок измерения. Такую манипуляцию иногда называют p-хакингом. Этот любопытный термин пришел из статистики и описывает явление, с которым стоит разобраться.
Для начала нужно признать тот факт, что если мы изучаем данные (особенно большие наборы данных) многочисленными и отличающимися друг от друга методами, то, по сути, это говорит о нашей убежденности в том, что необычные закономерности могут случайно выявляться даже тогда, когда реальные данные не имеют таких взаимосвязей. Например, если задействовано много переменных, то какие-то их пары в конечном наборе данных могут иметь высокую корреляцию, даже если реальные базовые значения никак не коррелируют, — просто в силу случайности или ошибок измерения. Применительно к исследованиям, в которые вовлечено много объектов (например, людей), это означает, в частности, наличие небольших групп, которые так же случайно будут удивительно похожи друг на друга по тем или иным признакам.
Для наглядности представим, что мы случайным образом сгенерировали строку из 1000 цифр. Вот первые 30 из них:
678941996454663584958839614115.
После этого мы можем начать поиск, например, последовательных 10 вхождений в нее одной и той же цифры. Если это ничего не даст, можно попытаться найти последовательность из девяти цифр, идущих по порядку (123456789). Затем, в случае неудачи, мы можем заняться поиском последовательности чередующихся цифр (например, 2323232323). Если и эта затея не удастся… В итоге, если продолжать в том же духе достаточно долго, мы обязательно найдем в наших данных некоторую повторяющуюся структуру. Но вот проблема: эта структура, эта аномалия не будет иметь ничего общего с реальной закономерностью. Если повторить этот эксперимент и сгенерировать еще одну тысячу цифр в случайном порядке, то нет никаких оснований предполагать, что мы найдем среди них такую же необычную конфигурацию. Открытия не состоится — оно не будет воспроизводимым.
Экономист Рональд Коуз вкратце описал эту ситуацию, заявив, что, если пытать данные достаточно долго, они непременно признаются. Но, как известно, признания, полученные с помощью пыток, далеко не всегда отражают истину. В нашем примере цифры были сгенерированы случайным образом и в структурах, которые мы можем в них обнаружить, нет никакого скрытого смысла.
Концепция p-хакинга формализует эту ситуацию. Начнем с того, что фундаментальным инструментом в научных исследованиях является проверка значимости. Это формальная статистическая процедура для проверки гипотез. Она начинается с расчета сводной статистики для нашей выборки. Например, мы можем обобщить выборку, используя среднее значение, медиану или дисперсию, в зависимости от того, какой аспект данных нам интересен. Теперь, если мы возьмем другую выборку, вполне вероятно, что ее сводная статистика будет иметь другие значения. Таким образом, если взять множество выборок, можно получить распределение статистических значений. Статистические методы позволяют рассчитать форму этого распределения, если допустить, что наша гипотеза верна.
Затем, сравнивая фактические наблюдаемые значения сводной статистики с этим распределением, мы можем увидеть, как часто нам следует ожидать экстремальных значений в случае, если гипотеза верна. Вероятность получить для данной модели распределения значений такое же или более экстремальное значение статистики по сравнению с ранее наблюдаемым называется p-значением проверки. Очень низкое p-значение, скажем, равное 1%, будет означать, что если наша гипотеза верна, то мы должны получить выборку с такими же или более экстремальными значениями лишь в 1 из 100 случаев. Это говорит о том, что либо наша гипотеза верна и произошло маловероятное событие, либо гипотеза ошибочна.
Для удобства p-значения сравнивают с обычными пороговыми значениями. Если наш анализ дает p-значение, не превышающее порогового значения, то говорят, что результат является статистически значимым для этого порогового уровня. Так, если мы выбрали порог 5%, тогда p-значения той же величины или меньше позволят нам утверждать, что результат значим на уровне 5%.
Приведу пример. Допустим, я выдвигаю предположение, что некая монета абсолютно честная, то есть вероятность выпадения решки всякий раз, когда я подбрасываю ее, будет равна 50%. Чтобы проверить это, я должен много раз подбросить монету и посмотреть, какая доля исходов придется на решку. Предположив, что монета честная, я бы ожидал, что это будет около половины всех бросков, но совсем не обязательно орлы и решки выпадут совершенно одинаковое число раз. Напротив, я бы как раз ожидал некоторого незначительного отклонения от 50%, но не слишком большого, и уж тем более не экстремального. Проверка значимости сообщит нам вероятность (при условии, что монета честная), с которой мы можем наблюдать отклонение равное или превышающее отклонение, полученное в ходе эксперимента. Очевидно, что если маловероятные экстремальные результаты все-таки получены, то имеет смысл усомниться в истинности выдвинутой гипотезы. Например, шанс того, что при подбрасывании честной монеты решка выпадет 90 или более раз из 100, астрономически мал (этот шанс и представляет собой p-значение). Поэтому, если такое все же произошло и монета 90 раз из 100 упала решкой вверх, мы должны заподозрить, что она нечестная.
Между прочим, смысл p-значения часто понимается абсолютно неверно. Принято думать о нем как о показателе вероятности того, что гипотеза верна. Это не так. Гипотеза либо верна, либо ошибочна, а p-значение просто показывает вероятность получения определенных экстремальных результатов в первом случае, то есть когда гипотеза верна.
Итак, мы разобрались с «р-значением», но что означает «p», если к нему добавить «хакинг»?
Этот термин появился благодаря пагубной практике проводить бесконечное множество проверок значимости без учета их количества. Почему это становится проблемой, понять несложно. Предположим, что мы проверяем 100 никак не связанных между собой гипотез, каждая из которых верна, но нам это неизвестно. Далее предположим, что мы рассматриваем p-значение на уровне 2% для любой из этих 100 гипотез как достаточно низкое, чтобы отнестись к ней с сомнением. Для каждой взятой в отдельности проверки значимости это вполне разумно, поскольку означает, что вероятность ложных подозрений в отношении этой единственной гипотезы, если она верна, составляет всего 2%. Но в случае, если вы проводите для каждой из 100 гипотез 100 проверок с уровнем p-значения 2%, получается, что вероятность возникновения сомнений по крайней мере для одной из них составит 87%. Скорее всего, вы решите, что хотя бы одна из гипотез является ошибочной, даже если все они будут верны. Вспомните о достаточно долгих пытках данных! Если вы скрываете тот факт, что провели 100 проверок, по сути, превращая их в темные данные (DD-тип 2: данные, о которых мы не знаем, что они отсутствуют), то ваши выводы могут быть очень обманчивыми.
Такая грубая ошибка допускается в научной литературе раз за разом. Рандомизированное исследование, проведенное в 1987 г. на материале четырех ведущих медицинских журналов, показало, что «74% всех испытаний имели по меньшей мере одно сравнение, отклонившее верную гипотезу, а 60% имели по меньшей мере одно сравнение, подтвердившее ошибочную, что явилось негативным следствием статистической проблемы множественных сравнений. Ни в одном из испытаний, в которых были обнаружены нарушения, не рассматривалось потенциальное влияние проблемы множественных сравнений на сделанные выводы». Под «негативным следствием… множественных сравнений» авторы подразумевают, что в исследованиях не учитывалась многочисленность статистических тестов, поэтому ложноположительные результаты были весьма вероятными. Хотелось бы надеяться, что эта проблема уже осталась в прошлом, однако по опыту могу сказать, что она до сих пор недостаточно осознается.
Давайте обратимся к классической статье по этой проблеме, написанной Крейгом Беннеттом и его коллегами, которая гораздо интереснее, чем можно ожидать судя по названию: «Нейронные корреляции межвидового восприятия, полученные после смерти атлантического лосося: аргумент в пользу коррекции множественных сравнений». Статья основана на результатах МРТ-сканирования мозга мертвого лосося, которому «показали серию фотографий, изображающих людей в различных ситуациях и… попросили определить, какие эмоции они испытывают». Вероятно, вы и без экспериментальных данных уже сделали свой вывод о реакции мозга мертвого лосося на показ фотографий. Но дело в том, что результат МРТ-сканирования представляет собой примерно 130 000 элементов объемного изображения, которые по аналогии с двумерными пикселями называют вокселями. И каждый из этих вокселей имеет небольшой шанс показать электрическую активность сканируемого материала исключительно в силу случайных фоновых шумов оборудования, а вовсе не потому, что клетки мозга мертвого лосося действительно реагируют. И хотя отдельно взятый воксель имеет лишь крошечный шанс дать ложный сигнал, вероятность его появления резко возрастает с учетом большого количества самих вокселей. Суммируйте огромное число крошечных шансов, и вот уже один, а то и более вокселей показывают электрическую активность, создавая впечатление, что некоторые нейроны мозга лосося активизируются, даже если сам лосось мертв. И действительно, Беннетт и его коллеги обнаружили несколько вокселей, подающих явные сигналы. В результате они пришли к такому выводу: «Либо мы наткнулись на поразительное открытие на стыке ихтиологии и посмертных когнитивных функций, либо что-то не так с нашим статистическим подходом. Можем ли мы заключить из этих данных, что лосось выразил свое мнение, отвечая на поставленный вопрос? Конечно, нет. Контролируя когнитивные способности субъекта, в данном случае мы полностью исключили эту возможность».
Статья Беннетта получила Шнобелевскую премию в 2012 г. Эта награда присуждается за «достижения, которые сначала заставляют людей рассмеяться, а затем — задуматься».
На эту тему есть анекдот. Экспериментатор A говорит экспериментатору Б, что у него большие проблемы с воспроизведением результатов, полученных Б. «Неудивительно, — отвечает тот, — ведь я тоже не смог получить их первые 100 раз, когда проводил эксперимент».
Серхио Делла Сала и Роберто Кубелли приводят случай, который может стать еще одним примером p-хакинга: Рэндел Суонсон и его коллеги сообщили о поражении мозга у американских дипломатов в Гаване якобы в результате воздействия «неизвестного источника энергии, повлиявшего на слуховые и сенсорные процессы». Суонсон и его команда пришли к выводу, что «эти люди, по-видимому, получили обширные повреждения клеток мозга, не вызванные травмой головы».
Но как они проверили свое предположение? Таблица, приложенная к статье Суонсона, описывает 37 результатов нейропсихологического теста, а в сноске к ней указано: «Жирный шрифт означает ненормальность, или менее 40-го процентиля». Кажется, это подразумевает, что любой, кто наберет менее 40-го процентиля распределения в любом тесте, может быть классифицирован как «ненормальный». Естественно, Делла Сала и Кубелли тоже интерпретировали это так. Но если бы все 37 тестов были идеально коррелированы (то есть все дали одинаковый результат для любого выбранного человека), это означало бы, что только 60% населения получат оценку выше 40-го процентиля во всех тестах и, следовательно, будут классифицированы как нормальные. В то же время если бы результаты тестов не имели никакой корреляции между собой, то простой расчет показывает, что даже одного человека из 100 млн нельзя было классифицировать как нормального во всех тестах. На первый взгляд кажется, что Суонсон с коллегами сделали все возможное, чтобы доказать наличие повреждения мозга по меньшей мере у некоторых людей. Как отмечают Делла Сала и Кубелли, было бы правильнее применить существенно более строгий критерий ненормальности, скажем, 5% вместо 40%, однако ключевая проблема заключается в другом — в том, чтобы баллы ниже порогового значения в любом из 37 тестов в принципе не означали отклонения от нормы.
Кстати, замечу: все это совсем не означает, что вышеозначенные лица не страдали нарушениями функций мозга. Просто заключение о таких нарушениях почти наверняка можно сделать даже для группы здоровых людей.
Тем не менее иногда нам действительно требуется оценить широкий ряд аспектов набора данных. Например, в клиническом исследовании мы могли бы измерить 100 характеристик пациентов, сравнивая две группы, и попытаться узнать, отличаются ли они по какой-либо из них. (Действительно, если организуется дорогостоящее исследование, то имеет смысл измерить как можно больше вещей.)
К счастью, существуют инструменты для решения проблемы p-хакинга и снижения риска получения ложных и невоспроизводимых результатов при проведении множественных проверок гипотез. Первый такой метод появился в 1930-х гг. и был назван поправкой Бонферрони. Это способ корректировки p-значения каждой отдельно взятой проверки с учетом количества проведенных проверок. В частности, если мы добиваемся, чтобы у каждой из 100 проверок p-значение было на уровне 0,1% (то есть шанс ошибочно отвергнуть истинную гипотезу равен 1 из 1000) вместо 2%, то вероятность по крайней мере одного выявления значимости — если все гипотезы верны — составит всего 10%, а не 87%, как это было в примере выше. Проще говоря, если все 100 гипотез верны, то теперь существует лишь 10%-ная вероятность того, что хотя бы одна из них будет отклонена как ложная. Это уже куда более приемлемо.
За последние три десятилетия был разработан целый ряд существенно более действенных инструментов решения проблемы множественных проверок. Многие из них являются расширенными и усовершенствованными вариантами метода Бонферрони, например контроль последовательности, в которой проводятся испытания. Но особенный прогресс в этом вопросе произошел благодаря работе Йоава Бенджамини и Йосефа Хохберга. Они переключили внимание с p-значения (то есть вероятности сделать неверный вывод, если гипотеза верна) на так называемую частоту ложных открытий. Это ожидаемая доля ошибок среди гипотез, помеченных как ложные. По всей видимости, такой подход эффективнее: он показывает, с какой вероятностью мы допускаем ошибку, когда признаем, что гипотеза неверна.
Помимо p-хакинга существует и другая, более фундаментальная причина неспособности воспроизвести результаты — потенциальные различия в условиях эксперимента. Отчеты об экспериментах, приведенные в научной литературе, традиционно должны быть краткими: этого требует стоимость публикации одной страницы в научных журналах (хотя сегодня, в эпоху интернета, такое ограничение уже не является необходимым), поэтому статьи редко описывают процедуры исследований в мельчайших деталях. К тому же, как мы уже говорили, сами исследования находятся на границе известного, и незначительные изменения условий эксперимента могут оказать большое влияние на его результаты.
Еще одной причиной ошибочных результатов является пагубная практика, получившая название HARKing, по первым буквам выражения «Hypothesizing After the Result is Known», или выдвижение гипотез, когда известны результаты проверки.
HARKing имеет место, когда гипотеза проверяется на тех же данных, с помощью которых была выдвинута. Если вы исследовали набор данных и обнаружили в нем нечто, что подтолкнуло вас к идее, некорректно использовать тот же набор данных для проверки ее истинности. Очевидно, что те же самые данные будут вызывать сомнения в гипотезе с очень низкой вероятностью! Например, если я заметил, что средний вес 1000 песчинок, взятых с одного пляжа, больше, чем средний вес 1000 песчинок, взятых с другого пляжа, я, конечно, могу предположить, что в целом песчинки на первом пляже более тяжелые, чем на втором, но я вряд ли смогу проверить свое предположение на тех же самых песчинках, поскольку они, естественно, его подтвердят. Идея должна проверяться на новом, независимом от первого наборе данных. Нам нужно собрать такие данные, которые еще не анализировались, то есть являющиеся темными данными в контексте гипотезы.
Обратите внимание, что просеивать, изучать и анализировать данные в поиске интересных свойств вполне нормально. Такие изыскания являются важным и, более того, фундаментальным методом выдвижения гипотез, генерирования идей и обнаружения скрытых ранее явлений. Однако те же самые данные нельзя использовать повторно, чтобы проверить, верны ли ваши идеи.
HARKing можно устранить, если требовать от исследователей публикации гипотез перед этапом сбора данных. Некоторые научные журналы уже предпринимают шаги в этом направлении, гарантируя публикацию статьи независимо от того, какие будут получены результаты, при условии, что гипотеза сформулирована заранее, а дизайн исследования и методология соответствуют строгим стандартам.
Как вы уже поняли, наука, по сути, является самокорректирующимся процессом. Он базируется на сравнении прогнозов с полученными данными, вследствие чего предложенная теория, противоречащая фактам, рано или поздно отклоняется или изменяется. Обратной стороной такого подхода является то, что теории, которые в итоге оказываются неверными, часто какое-то время подтверждаются данными, пока не будут отклонены в процессе уточнения истины.
Мы уже упоминали одну очевидную причину такого ложного подтверждения — когда что-то не так с исходными данными. Возможно, наблюдения были недостаточно точными, чтобы отвергнуть теорию, или были искажены и содержали ошибки, а может быть, они просто были неполными. Эта книга изобилует примерами разнообразных путей появления темных данных, но иногда тень на плетень наводят умышленно, а искажения и ошибки оказываются результатом мошеннических действий.
Неудивительно, что мошенничество процветает в сфере финансов и коммерции — выгоды здесь очевидны, в чем мы уже успели убедиться в предыдущих главах. Но научные исследования, как правило, представляют собой не самый короткий путь к обогащению. Достаточно вспомнить растиражированный образ ученого — человека слегка не от мира сего, который занят исключительно познанием истины, не интересуется бытовыми вопросами и, разумеется, носит белоснежный халат. К сожалению, реальность выглядит несколько иначе. Ученые тоже люди, они руководствуются теми же мотивами и желаниями, что и все остальные. Деньги, власть, признание и уважение коллег так же важны для ученых, как и для людей других профессий. И точно так же, как и другими, учеными порой овладевают жадность, гордыня и зависть.
Однако между финансами и наукой есть одно ключевое различие: финансовые мошенничества могут и не быть обнаружены, а вот неверные научные утверждения в конечном счете опровергаются. Все дело в самокорректирующейся природе науки. Так какой смысл публиковать заведомо ложные открытия, авторы которых рано или поздно будут выведены на чистую воду?
Один из возможных ответов на этот вопрос состоит в том, что теория может и впрямь оказаться верной. Люди строят необоснованные догадки, и иногда они оказываются удачными, хотя такой подход никак не назовешь разумной стратегией для успешной научной карьеры. Другой ответ заключается в том, что мошенническая теория может оставаться неопровергнутой не только при жизни ее создателя, но и на протяжении целых столетий. Такая возможность выглядит соблазнительно для того, кто настолько убежден в правоте своей теории, что готов подгонять или фальсифицировать данные в надежде скрыть обман. Некоторые из величайших ученых подозревались в махинациях со своими данными, в том числе Роберт Милликен, Луи Пастер, Джон Далтон, Грегор Мендель, Галилей и даже сам Ньютон. Далее мы рассмотрим дело Милликена, поскольку его записные книжки с данными сохранились и мы можем сопоставить с ними выдвинутые против него обвинения. В других же случаях точных данных нет, поэтому установлением истины должна заняться судебная статистика.
Особенно интересно здесь то, что люди, перечисленные выше, справедливо считаются сегодня великими учеными, в том числе и потому, что дальнейшие исследования и многочисленные повторения подтверждают их выводы. Будь это не так, на их трудах осталось бы клеймо недостоверности, а сами они были бы отправлены на свалку истории. Похоже, в этом есть какая-то несправедливость!
Даже если выясняется, что теория, основанная на мошеннических данных, ошибочна, само мошенничество при этом может и не вскрыться. Природа науки подразумевает существование множества несостоятельных теорий, которые первоначально соответствуют данным и лишь позже начинают сыпаться. Однако если нет причин для пересмотра данных, на которых была основана теория (при условии, что они все еще доступны), то ее провал, как правило, списывают на неточность измерений, случайные колебания или какой-нибудь иной недостаток, но ни в коем случае не на мошенничество.
Однако иногда такие случаи все же обнаруживаются, и даже спустя много лет после самого события блестящая карьера может в одночасье рухнуть. Большинство мошенников от науки действуют по одной схеме — они начинают с небольшого обмана, а затем, воодушевленные успехом, увеличивают его масштаб. Так происходит до тех пор, пока кто-нибудь не начнет с пристрастием анализировать их настоящие — и прошлые — эксперименты и данные. И вскоре здание, построенное на обмане, рушится.
Сэр Сирил Берт был выдающимся психологом: в 1968 г. он стал первым неамериканским лауреатом престижной премии Эдварда Ли Торндайка, присуждаемой Американской психологической ассоциацией. Но вскоре после его смерти в 1971 г. возникли подозрения в отношении его работы по наследственности интеллекта, когда Леон Камин отметил, что некоторые коэффициенты корреляции Берта (указывающие, насколько схожие значения могут принимать две переменные) из разных экспериментов, были одинаковыми с точностью до трех знаков после запятой. Вероятность такого совпадения ничтожна. Несколько авторитетных ученых согласились с тем, что Берт совершил мошенничество, другие же указывали на то, что были исследователи, получившие аналогичные значения коэффициентов корреляции. Артур Дженсен, например, утверждал, что «никто, имеющий опыт в статистике, а Берт был чрезвычайно опытен, не станет регистрировать значение корреляции 0,77 три раза подряд, если захочет подделать данные». Это интересный аргумент. По сути, он говорит о том, что любой, кто планирует совершить научное мошенничество, должен сделать свое намерение очевидным, поскольку тогда никто не поверит, что он может быть настолько глупым. Я очень сомневаюсь, что такой довод можно назвать серьезным. Важно еще и то, что это обвинение в мошенничестве было основано в том числе на факте уничтожения улик: все записи Берта были им сожжены, поэтому никто не мог проверить коэффициенты или убедиться в существовании данных, на которых они были получены.
Первые шаги по этой скользкой дорожке обычно выглядят как нечто само собой разумеющееся. Дело в том, что на каком-то этапе исследований каждый ученый принимает субъективные решения о том, какие данные являются приемлемыми, а какие следует отклонять. В конце концов, если вы заметили, что участник контрольной группы, взвешиваясь, не снял тулуп, а участница была на высоких каблуках, когда измеряли рост, ничто не мешает вам со спокойной совестью исключить эти данные из анализа. Но что, если вы обнаружили неисправность весов, а значит, и усомнились в точности предыдущих измерений или вы не можете вспомнить, все ли участники контрольной группы снимали обувь при измерении роста? Означают ли эти подозрения, что вы должны отклонить все собранные данные? В подобных случаях разные исследователи могут принимать разные решения.
О возможностях мошенничества в науке известно довольно давно. В разделе 3 главы 6 своей классической книги «Размышления об упадке науки в Англии и о некоторых его причинах» (Reflections on the decline of science in England), вышедшей в 1830 г., Чарльз Бэббидж, изобретатель первой вычислительной аналитической машины, «отец» современного компьютера, сказал: «Научные исследования более других вещей открыты для набегов симулянтов; и я чувствую, что заслужу благодарность всех, кто действительно ценит истину, заявив вслух о некоторых методах обмана, применяемых недостойными претендентами на научные заслуги, поскольку одно лишь предание огласке их уловок может отпугнуть будущих преступников… Есть несколько видов жульничества, практикуемого в науке, которые известны в основном посвященным и которые вполне возможно вразумительно донести до всеобщего понимания. Их можно классифицировать как розыгрыш, подделка, приукрашивание и фабрикация». Все перечисленное Бэббиджем представляет собой разные способы сделать данные темными, поэтому рассмотрим каждый из них более подробно.
Розыгрыш, или мистификация, — это подделка данных (DD-тип 14: фальшивые и синтетические данные, в роли которых, как мы увидим, могут выступать даже реальные объекты, такие как окаменелости, кости или даже целые животные) с целью создать впечатление, что существует нечто, чего на самом деле нет, но с намерением открыть истину до того, как люди будут введены в заблуждение. Можно сказать, что это форма научно-практической шутки.
Зачастую розыгрыши устраивают, чтобы высмеять излишнее высокомерие и пафосность. Например, Иоганн Варфоломей Адам Берингер, декан медицинского факультета Вюрцбургского университета в начале XVIII в., был известен тем, что собирал окаменелости. В какой-то момент его коллекция стала пополняться окаменелостями весьма необычных животных и растений, затем экспонатами с изображением звезд и планет, а позже он обнаружил камень с выбитым именем Иеговы. Декан так впечатлился своими удачными находками, что даже издал о них книгу. Он был убежден, что следы долота на некоторых камнях были оставлены самим Богом. (Самое время вспомнить о предвзятости подтверждения!)
В один прекрасный день шутники, которыми оказались университетские коллеги Берингера Игнац Родерик, профессор географии и математики, и Иоганн Георг фон Экхарт, тайный советник и университетский библиотекарь, решили, что их шутка зашла слишком далеко. Они признались Берингеру, что сами изготовили эти экспонаты и подбросили их на гору, где он обычно проводил свои изыскания, чтобы немного сбить с него спесь и высокомерие. Но Берингер не поверил им. Вместо этого он решил, что коллеги пытаются отнять у него славу первооткрывателя. И только после того, как нашел камень с выбитым на нем собственным именем, профессор осознал происходящее. В результате был инициирован судебный процесс, и Родерик с Экхартом поплатились за шутку своей карьерой.
В другом подобном примере, но с куда меньшими для всех последствиями, двое мальчишек однажды попытались подшутить над Чарльзом Дарвином, прикрепив голову жука, крылья бабочки и лапки кузнечика к телу сороконожки, попросили его идентифицировать этого монстра. Создатель теории эволюции внимательно осмотрел существо и после долгой паузы задал всего один вопрос: «Скажите-ка, а оно надувалось, когда вы его ловили?» — «Да, сэр, еще как надувалось!» — «Ну, тогда это надувательство», — вынес свой вердикт Дарвин.
Измышляя данные, мистификаторы скрывают то, как выглядят реальные данные. Однако в более свежем примере розыгрыша, уже ставшего классикой, мистификатор вообще опустил этап сбора и анализа данных и сразу перешел к публикации статьи. Чтобы проверить интеллектуальную строгость постмодернистского журнала Social Text, физик Алан Сокал представил к публикации абсолютно бессмысленную статью под названием «Нарушая границы: на пути к трансформативной герменевтике квантовой гравитации». Social Text — это журнал, который по его собственному определению «охватывает широкий спектр социальных и культурных явлений, а также применение новейших методов интерпретации мира в целом». Статья была принята и опубликована без какого бы то ни было рецензирования, и тогда Сокал во всем признался. Поскольку подобные мистификации высмеивают того, на кого направлены, они могут быть крайне неприятными (как в случае с Берингером). Однако, если розыгрыш вскрывает обман или нарушения логики, он может быть очень полезен. «Многие исследователи в области гуманитарных и социальных наук написали Сокалу… и выразили ему благодарность за то, что он сделал».
Существует современный вариант розыгрыша Сокала, который заслуживает упоминания. Речь идет о платных журнальных публикациях. Сеть оказала большое влияние на саму систему научных публикаций. В прошлом исследователи и библиотеки покупали подписки, и эти подписки составляли основу бизнес-моделей журналов. Однако интернет позволил людям загружать свои документы на сайты бесплатно, поэтому потребовалась другая бизнес-модель. Система находится в состоянии постоянного изменения, но в одной из получивших распространение моделей автор сам оплачивает публикацию статьи, после чего к ней открывается бесплатный доступ всем потенциальным читателям. К сожалению, побочным эффектом такой модели стало то, что появились «журналы», которые за плату публикуют все что угодно, независимо от достоверности содержания. Была целая череда мистификаций, когда люди по примеру Сокала преднамеренно представляли для публикации бессмысленные документы, чтобы в случае их принятия разоблачить и высмеять журнал.
Особенно примечателен случай, когда Джон Бохэннон под псевдонимом Окоррафу Кобанге из несуществующего Медицинского института Ваззее представил версии своей статьи в 304 журнала. Вот что пишет Бохэннон об этой мистификации: «Любой рецензент, имеющий знания по химии на уровне средней школы и способный понимать основные данные, должен был сразу выявить недостатки статьи. Эксперименты, на которых она основана, совершенно несостоятельны, поэтому результаты просто не имеют смысла». Однако «более половины журналов приняли к публикации статью, так и не заметив ее фатальных изъянов».
Из множества других подобных розыгрышей можно привести потрясающий пример со статьей Дэвида Мазьера и Эдди Колера, первоначально представленной на конференции, а затем принятой журналом (в котором, видимо, даже не слышали о рецензентах). Вся статья представляла собой повторение одной и той же фразы: «Уберите меня из этого долбаного списка рассылки». Какое название было у этой информативной статьи, вы сможете догадаться сами — это не должно стать для вас темными данными.
Стоит отметить, что такие попытки продемонстрировать поверхностность некоторых журналов порой наталкиваются на серьезные препятствия. Во время работы над этой книгой доцент факультета философии Портлендского университета Питер Богоссян столкнулся с трудностями после того, как стал соавтором серии статей, семь из которых были приняты к публикации. С помощью этих статей их авторы пытались высмеять уровень образованности издателей и «посмотреть, действительно ли использование тем, которые мы назвали “исследованиями недовольства”, то есть отражающих политические тренды, позволяет превращать предрассудки и мнения во что-то, что уже рассматривается как знание». На сегодняшний момент в его защиту выступили такие известные ученые, как Ричард Докинз и Стивен Пинкер.
Подделка похожа на мистификацию, за исключением того, что она не подразумевает самораскрытия. Злоумышленники и в этом случае скрывают реальные данные, затемняя их и заменяя поддельными. «Бордюрство», о котором мы говорили в главе 2, служит типичным примером подделки данных в процессе опросов и переписей.
Если говорить о науке, то одна из самых известных подделок получила свое название в честь небольшого городка Пилтдауна. В 1912 г. адвокат и археолог-любитель Чарльз Доусон написал своему другу Артуру Смиту Вудворду, который в то время был хранителем отдела геологии Музея естественной истории в Лондоне, и сообщил, что в гравийных пластах возле Пилтдауна в Восточном Сассексе нашел фрагмент черепа древнего человека. Вместе они продолжили исследование, в ходе которого Доусон обнаружил фрагмент нижней челюсти вместе с зубами. Объединив два фрагмента и завершив воссоздание черепа с помощью пластилина, они предположили, что нашли не что иное, как образец отсутствующей эволюционной связи между человекообразными обезьянами и людьми.
Находка вызвала большой резонанс и значительную полемику. Были те, кто предположил, что две кости не принадлежат одному и тому же существу. Зоолог Мартин Хинтон, убежденный, что это был трюк, зашел так далеко, что попытался раскрыть предполагаемых мошенников. Хинтон выпилил зуб обезьяны таким образом, чтобы он вписывался в пластилиновую реконструкцию Вудворда и подбросил его в гравийные пласты возле Пилтдауна.
Как он и планировал, поддельный зуб был обнаружен. Однако вместо того, чтобы разоблачить Доусона, находку восприняли как еще одно доказательство его правоты. Решив не сдаваться, Хинтон взял кость, принадлежавшую вымершему виду слонов, с помощью резца придал ей форму крикетной биты и вновь закопал в Пилтдауне. Но и это не помогло — Доусон и Вудворд опубликовали научную статью в Geological Magazine, где упомянули о новой находке: «В прошлом сезоне мы потратили много времени на изучение гравия в Пилтдауне, за пределами ранее детально изученной области… однако находок было немного… Мы не обнаружили никаких человеческих останков. Но большой кусок кости, явно обработанной человеком, компенсирует наше разочарование и в силу своей необычности заслуживает особого описания».
Иногда кажется, что люди действительно рады любой возможности обмануться. Классически продемонстрировав пример предвзятости подтверждения, Доусон и Вудворд дали своей находке такой комментарий: «Это костное орудие было найдено примерно в футе от поверхности земли в темном верхнем слое почвы… После смывания почва не оставила ни малейшего следа на образце, который оказался покрыт налипшей на него твердой бледно-желтой песчаной глиной, очень похожей на кремневую породу в нижнем слое гравия. Таким образом, кость не могла лежать в земле в течение длительного времени, и почти наверняка можно предположить, что она оказалась там по вине рабочих, которые вместе с другими бесполезными предметами выбросили ее, когда добывали гравий из соседнего шурфа».
Статья, в которой был подробно описан артефакт и изложены гипотезы о его происхождении, вызвала бурное обсуждение, в частности, следующие комментарии:
Пилтдаунский человек (он же эоантроп), безусловно, является одной из самых успешных научных подделок — лишь спустя 40 с лишним лет было окончательно установлено, что находка представляет собой комбинацию челюсти орангутанга, зубов шимпанзе и фрагмента человеческого черепа. Чем-то это творение напоминает монстра из другого розыгрыша, устроенного детьми Чарльзу Дарвину. В результате подозрение пало в основном на Доусона. И это неудивительно: по словам археолога Майлза Рассела, некоторые предметы из частной коллекции Доусона также оказались подделками.
Археологические и палеонтологические подделки не оказывают прямого влияния на жизнь и здоровье людей. Но вот подделка исследователя Джона Дарси вполне могла бы. Дарси работал главным врачом Мемориальной больницы Грэйди, крупнейшей больнице штата Джорджия, а затем переехал в Гарвард, где ему в 1981 г. предложили должность преподавателя. Но в том же году было инициировано расследование после того, как у некоторых коллег Дарси возникли подозрения в достоверности результатов его лабораторных исследований. После тщательного разбирательства правительственная организация Национальные институты здравоохранения пришла к выводу, что он сфабриковал данные экспериментов, которые фактически не проводил. И то верно: куда проще взять цифры из головы, чем прилагать усилия и делать всю эту разочаровывающую и трудоемкую работу!
К сожалению, таких примеров немало. Кардиолог Боб Слуцкий получал превосходные отзывы о своих выдающихся исследованиях, пока они не стали расползаться по швам. В конце концов комитет Калифорнийского университета в Сан-Диего пришел к выводу, что Слуцкий искажал и фальсифицировал данные. Исследователь Джон Субдо публиковал статьи по онкологии в ведущих медицинских журналах, пока не выяснилось, что данные по 900 пациентам, описанных им в журнале The Lancet, были полностью поддельными. Управление по обеспечению добросовестности в исследованиях США пришло к выводу, что исследователь рака доктор Анил Потти совершил ряд неправомерных действий, включая использование ложных данных. В частности, он утверждал, что 6 из 33 пациентов положительно отреагировали на препарат дазатиниб, в то время как в контрольной группе было зарегистрировано только четыре пациента, ни один из которых не отреагировал положительно.
В 2017 г. министерство науки и техники Китая признало 486 исследователей виновными в подделках — случай выдающийся по числу вовлеченных людей. Правда, речь идет не о подделке исходных данных или результатов экспериментов, а о найме продажных рецензентов, давших положительные комментарии их статьям, представленным к публикации, и даже о комментариях, написанных несуществующими рецензентами.
Продолжать этот список можно до бесконечности. Если вы хотите изучить больше примеров, то можете обратиться к ресурсу Управления по обеспечению добросовестности в исследованиях США, которое следит за достоверностью проводимых исследований в области здравоохранения и информирует о подобных случаях. Но подделки сегодня, как и раньше, возникают не только в медицинских исследованиях. Так, физик Ян Хендрик Шон выдавал один и тот же набор данных за несколько разных, якобы полученных в результате различных экспериментов, а голландский социальный психолог Дидерик Стапель фальсифицировал данные во многих своих исследованиях, в результате чего 58 его работ были отозваны.
В основе научных подделок лежит убеждение, что проще и дешевле измыслить данные, которые гарантированно будут соответствовать вашей теории, чем собирать их и рисковать тем, что они могут не подтвердить теорию. Но на деле оказывается, что выдумать данные, которые выглядят реалистично, не так-то просто.
Причина в том, что реальные данные всегда подвержены влиянию случайных аспектов. Самое точное измерение массы, заряда или давления в физическом эксперименте, как правило, все равно даст случайный разброс значений из-за флуктуаций исходных условий, и остается только надеяться, что полученные данные будут распределены вокруг истинного значения того, что измеряется. Измерение роста людей в популяции дает распределение значений, потому что рост — это индивидуальная характеристика. Количество и вес семян, произведенных растениями одного вида, будут для каждого растения свои по той же причине. Поэтому, если мы хотим подделать данные так, чтобы они выглядели реально, мы должны учесть этот случайный разброс.
Однако люди сами по себе, без дополнительных технических средств, не очень хорошо справляются с этой задачей. Мы не способны выдумывать данные, которые бы выглядели убедительно случайными, то есть не имели внутренних закономерностей. Если вы попросите разных людей сгенерировать случайным образом достаточно большой числовой ряд, то увидите, что, как правило, в нем будет слишком мало сгруппированных одинаковых цифр (например, 333 и 77), слишком часто будут встречаться восходящие или нисходящие серии (например, 654 и 4567), слишком навязчиво будут повторяться числовые последовательности и другие типы закономерностей. Например, Берни Мэдофф, о котором мы говорили в главе 1, как выяснилось после его разоблачения, куда ни попадя вставлял парные восьмерки и шестерки, начиная от финансовой отчетности и заканчивая фальшивыми результатами игры в гольф.
Естественно, все зависит от степени изощренности мошенника. Тот, кто хорошо знаком со статистикой, будет в курсе того, чем ложные данные могут отличаться от реальных, и постарается учесть эти аспекты. В качестве альтернативы простому измышлению люди могут копировать данные из другого источника или даже не просто копировать, а добавлять к ним небольшие случайные возмущения. Все это заставляет задуматься: не легче ли провести реальный эксперимент, чем прилагать столько усилий для создания убедительной фальшивки?
Приукрашивание — корректировка данных с целью их лучшего соответствия теории. Бэббидж охарактеризовал этот процесс как «отрезание маленьких кусочков тут и там от наблюдений, которые слишком далеко отстоят от средних значений, и приклеивание их к тем, которые находятся слишком близко». При этом стратегическое среднее значение может быть оставлено без изменений, а диапазон значений сужен, что заставит неопределенность измерений казаться меньше, чем она есть на самом деле.
В статистике существуют надежные методы, которые делают нечто подобное и при определенных обстоятельствах защищают от избыточного влияния, которое необычно высокие или низкие (а значит, возможно, ложные) значения могут оказать на результаты. Один из таких методов, винсоризация (в честь статистика Чарльза Уинсора), заключается в замене экстремальных значений другими, находящимися на определенном удалении от среднего. Например, значения, лежащие за пределами двух стандартных отклонений, могут считаться недостоверными и заменяться значениями на уровне двух стандартных отклонений. Среднее значение полученных в результате данных будет менее изменчиво, чем среднее значение исходных данных, поэтому ваша аудитория должна обязательно знать, что данные были изменены. Если вы не сообщите об этом, то замаскируете правду. И обратите внимание, что этот технический прием не подразумевает приклеивания обрезанных «кусочков» данных к другим значениям!
В предельной версии приукрашивания фрагменты данных перемещаются или копируются целыми партиями из одной части большого набора данных в другую. Как и при банальном выдумывании данных, такие «оптовые поставки» могут сэкономить массу усилий! Я видел, как это делалось с числовыми данными в случаях предполагаемого мошенничества, которые мне довелось изучать, но все-таки чаще такой подход используют при работе с фотографиями, когда хотят, чтобы на них отображалось нечто иное.
Я также неоднократно видел, как серьезным приукрашиванием занимаются и на более высоком уровне. Работы, представленные в авторитетные научные журналы, проходят процедуру рецензирования, в ходе которой они рассылаются нескольким независимым исследователям для оценки точности представленных результатов, правильности проведения исследования и важности его публикации. Если рецензент указывает на какие-то недостатки в исследовании, то авторы в ответ порой вносят в статью поправки, добавляющие двусмысленности, чтобы другие рецензенты (да и читатели) не смогли обнаружить ошибок, после чего отправляют статью в другой журнал.
Например, достоверность статистического теста или процедуры моделирования может основываться на допущениях, которые при проверке данных оказываются сомнительными, что делает потенциально недействительными и сами выводы. Однажды в качестве рецензента я наткнулся на статью, в которой приводились средние и медианные значения выборки данных. Их соотношение вызвало у меня подозрение, что распределение было искажено, а это уже делало недействительным статистический анализ, приводимый далее в исследовании. Когда я выразил свои сомнения в отчете, то вместо того, чтобы провести повторный анализ, который мог бы исправить эту ситуацию (или, возможно, изменить выводы), авторы просто удалили упоминание о медиане, прежде чем представить статью в другой журнал. К их большому огорчению, редакторы второго журнала отправили статью тому же рецензенту!
Смысл фабрикации в том, чтобы данные выглядели более точными и достоверными, чем они есть на самом деле. Это достигается путем сбора как можно большего количества данных и последующего выбора из них наиболее согласующихся с теорией. Бэббидж говорит об этом так: «Если будет сделана сотня наблюдений, то фабрикатору должно очень сильно не повезти, чтобы он не смог выбрать из них 15–20, которые можно было бы использовать». Такая стратегия во многом напоминает уже рассмотренный нами p-хакинг.
Один из самых известных случаев предполагаемой фабрикации был связан с именем нобелевского лауреата Роберта Милликена. Однако после тщательного расследования выяснилось, что все обстояло не так, как казалось поначалу: темные данные, конечно, присутствовали, но они не были умышленно состряпанными.
Роберт Милликен получил Нобелевскую премию по физике в 1923 г., в том числе за измерение заряда электрона. Вначале он работал с группой аспирантов, но позже в одиночку провел ряд экспериментов, связанных с уравновешиванием скорости падения заряженных капелек масла силой, создаваемой электрическим полем. Измеряя конечную скорость капли, он определял, когда сила тяжести была уравновешена вязкостью воздуха, что позволило вычислить радиус капли. Дальнейшие измерения скорости при включении электрического поля позволили Милликену определить заряд на капле. Благодаря множеству повторений эксперимента он смог вычислить наименьший существующий электрический заряд — заряд электрона.
Для нас важным является то, что в своей статье 1911 г., опубликованной в журнале Physical Review, Милликен заявил: «Это единственные капли такого размера, которые наблюдались при указанных условиях, так что они представляют собой регулярные наблюдения, а не выборку… Следует также отметить, что это не выбранная группа капель, а именно все капли, на которых в течение 60 последовательных дней проводился эксперимент. За это время аппарат несколько раз демонтировался и устанавливался заново». Это утверждение кажется предельно ясным: оно говорит нам о том, что исключена любая возможность искажения, возникающего при выборе данных, сознательном или неосознанном (DD-тип 3: выборочные факты), а следовательно, темных данных такого типа здесь нет.
И это было бы так, если бы проверка его тетрадей не показала, что на самом деле приведены не все данные. (Если вам интересно, цифровую копию тетради можно найти по адресу: .) В то время как в статье сообщалось о результатах измерений на 58 каплях, его тетради утверждали, что таких измерений было 175, а это уже похоже на явный случай фабрикации, а возможно, и мошенничества. По крайней мере именно так это расценили Уильям Брод и Николас Уэйд — авторы книги «Предатели истины: Мошенничество и обман в науке» (Betrayers of the Truth: Fraud and Deceit in the Halls of Science), название которой говорит само за себя.
Однако более глубокое изучение этого случая физиком Дэвидом Гудстейном позволяет предположить, что манипулирование данными здесь есть лишь на первый взгляд. Из трех факторов, влияющих на движение капель масла, только два — гравитация и электрическое поле — были достаточно изучены. Влияние же вязкости воздуха на такие маленькие объекты, как капли, было изучено куда меньше. С учетом этого для уверенности в результатах Милликен должен был провести дополнительные эксперименты, которые позволили бы ему усовершенствовать саму процедуру измерения. Эти дополнительные измерения как раз и не были включены в статью, притом что они, похоже, подтверждали теорию — Гудстейн приводит слова Милликена об одном из таких исключенных измерений: «Совершенно ясно, что это лучшее из того, что я когда-либо получал!!!».
Выяснилось также, что были и другие причины для отказа от некоторых измерений. Некоторые капли оказались слишком маленькими, поэтому были сильно подвержены броуновскому движению; другие — слишком большими, поэтому они падали чересчур быстро и их измерения могли быть неточными. Милликен просто доверился своему чутью и не стал учитывать такие измерения. Мы уже говорили о том, что подобные решения рано или поздно принимает каждый исследователь. Если кто-то толкнет лабораторный стол во время проведения чувствительного измерения, вы, вероятно, исключите такой результат. То же самое касается, например, попадания в приготовленный препарат непредусмотренных условиями эксперимента веществ. Как и в любых аспектах жизни, между светом и тьмой существует множество оттенков серого.
Кроме перечисленных Бэббиджем розыгрышей, подделок, приукрашиваний и фабрикаций есть и другие виды научных проступков. Например, плагиат, который скрывает истинное авторство с целью выдать чужую работу за свою, и превращает источник в темные данные. Иногда он принимает форму дословного копирования текста или даже простого изменения названия, имени автора статьи и повторной ее отправки на публикацию! Для выявления подобных вещей были разработаны программные средства, которые сопоставляют представленные материалы с уже опубликованными, поэтому сейчас прямое копирование чужих работ стало более рискованной стратегией, чем в прошлом.
Очевидно, что репутация научной организации может пострадать в результате раскрытия таких проступков. Это означает, что организация может попытаться их приуменьшить или даже скрыть. Но сокрытие того, что рано или поздно становится достоянием общественности, может быть еще более разрушительным. Обычно, при возникновении подобных ситуаций, научные организации сами создают независимые рабочие группы, которым поручают расследование. Мне доводилось работать в нескольких таких группах.
Мы видели, что самокоррекция в науке осуществляется путем множественного повторения исследований и сопоставления полученных данных с теорией. Но существуют и другие механизмы. Если в опубликованной статье обнаружена ошибка, авторы и редакторы журнала могут отозвать ее, признав, что она не соответствует заявленному в ней. Это необязательно означает, что статья ошибочна — возможно, в ней просто некорректно изложены выводы, но та же судьба ожидает статью, в которой обнаружено мошенничество или искажение фактов.
Недавнее исследование Р. Гранта Стина и его коллег, проведенное на основе базы данных публикаций в области биологических и медицинских наук PubMed, показало, что частота отзывов «резко выросла в последние годы», а также (и это кажется особенно тревожным), что «с 1975 г. произошло предполагаемое 10-кратное увеличение случаев отзыва по причине научного мошенничества». Но давайте посмотрим на это серьезное обвинение в перспективе. В последние десятилетия количество журнальных статей, проиндексированных PubMed, значительно увеличилось. С 1973 по 2011 г. в базу данных было внесено 21,2 млн журнальных статей, из которых 890 были отозваны за мошенничество. Это всего одна из 23 799 опубликованных статей, что выглядит уже не так пугающе. Стин и соавторы отмечают, что «с 1973 по 2011 г. включительно увеличение темпа появления новых публикаций было больше… чем увеличение частоты отзыва работ за мошенничество… или ошибку», но при этом добавляют, что на протяжении указанного времени отмечались периоды, когда частота отзыва заметно возрастала. Эту проблему осложняет то, что в обязательном порядке проводятся ретроспективные отзывы, когда редакторы пересматривают и отзывают статьи, опубликованные довольно давно. Читателей, интересующихся отозванными статьями и причинами этого явления, отсылаю на сайт . Но нужно понимать, что отзывы, скорее всего, представляют собой лишь верхушку айсберга некачественных научных публикаций. Несомненно, есть масса других исследований, которые следовало бы отозвать, но их недостоверность до сих пор не обнаружена.
Кстати, из этого могут извлечь урок будущие мошенники. (По вполне понятным причинам я сомневался, стоит ли обращать на это внимание, но решил, что будет честнее дать общую картину и в духе этой книги не скрывать информацию.) По определению, малоизвестные журналы попадают на глаза меньшему числу исследователей, и, поскольку вероятность обнаружения мошенничества тем меньше, чем меньше аудитория, шансов на обнаружение нечестных статей в малоизвестных журналах естественно меньше. Конечно, это может повысить число публикаций нечистых на руку исследователей, однако не окажет влияния на их индекс цитируемости, который показывает степень влияния ученого на научный процесс.
В главе 3 мы говорили о резком увеличении числа случаев диагностирования аутизма в Соединенных Штатах после 2000 г., что, по крайней мере частично, связано с повышением осведомленности населения об этом медицинском состоянии. Аналогичное явление может объяснить и увеличение числа отзывов научных работ: возможно, отчасти это связано с повышением осведомленности, а значит, бдительности редакторов, рецензентов и читателей. То же самое, вероятно, относится и к научному мошенничеству в целом, возросший уровень которого может быть обусловлен тем простым фактом, что люди стали более внимательны к таким вещам. В последнее время целый ряд громких дел в сфере научного мошенничества привлек внимание СМИ, и поэтому есть впечатление, что эта тема на слуху.
За последние пару лет в новостях появился особый жанр — так называемые фейк-ньюс, которые представляют собой темные данные (DD-тип 14: фальшивые и синтетические данные). «Википедия» определяет фейк-ньюс как «тип желтой журналистики или пропаганды, который состоит из преднамеренной дезинформации или обмана». «Желтая журналистика» — термин, придуманный в конце XIX в. во время газетных войн между медиамагнатами Уильямом Рэндольфом Херстом и Джозефом Пулитцером, который означает публикацию преувеличенных и сенсационных историй. Своим названием этот термин обязан «желтому малышу» — комическому персонажу в желтой рубахе, который впервые появился в пулитцеровской газете New World. Херст ответил тем, что запустил такого же «желтого малыша» гулять по страницам своего издания New York Journal. Фейк-ньюс, как правило, оперируют словами, а не цифрами, но тем не менее они могут классифицироваться как темные данные — вы думаете, что знаете нечто, но это не так. И в той степени, в которой обман совершается умышленно, он является своего рода мошенничеством.
Проблема отделения зерен от плевел, то есть правды от лжи, стояла перед человечеством с незапамятных времен. И до сих пор у нее нет однозначного решения. Но в области данных существует одна весьма полезная стратегия — вы должны настаивать на том, чтобы вас информировали, откуда поступают данные, кто их собирал или кто сообщил о них. Как я написал в своей статье на эту тему, когда вы получаете данные со стороны, задайте простой вопрос: «Кто вам такое сказал?» Всегда настаивайте на том, чтобы вам раскрывали происхождение данных. Если вы не получаете ответа на свой вопрос, делайте выводы о вероятной достоверности информации (кроме случаев, когда существует риск для источника информации). На практике это означает, что все газеты и сайты, все журналисты и политики должны указывать, откуда они получили свою информацию. Это позволит в любой момент проверить их слова — необязательно делать это, важна сама возможность. Хотя такая стратегия не решает всех проблем с достоверностью данных и не сможет помешать сознательному отбору информации в поддержку своей позиции, в ряде случаев она будет полезна.
Частичное решение проблем темных данных кроется в понятии «прозрачность» — по крайней мере решение таких проблем, которые возникают в результате мошенничества и обмана. Идея состоит в том, что скрыть реально происходящее намного сложнее, если информация о нем будет опубликована. Люди видят своими глазами, что происходит, и мошенничество становится затруднительным. Это свет, который разгоняет мрак, окутывающий темные данные. Западные демократии придают большое значение такой открытости на разных уровнях государственного управления — даже правительствам рекомендуется публиковать подробности своих сделок. Кодекс прозрачности местного самоуправления Великобритании гласит: «Прозрачность — это основа подотчетности на местном уровне и ключ к получению людьми инструментов и информации, необходимых для того, чтобы они могли играть более важную роль в обществе. Доступность данных также способна открыть новые рынки для местного бизнеса, волонтеров и общественных организаций, социальных предприятий по оказанию услуг и управлению государственными активами… Правительство считает, что все данные, находящиеся в распоряжении и под управлением местных властей, должны быть доступны для жителей, если они не требуют конфиденциальности». Далее в документе говорится: «Этот кодекс гарантирует, что местные жители отныне могут получать доступ к данным о том… как тратятся деньги местных бюджетов… как используются активы… как принимаются решения по вопросам, значимым для местного населения». Например, сведения о расходных статьях управы района Теймсайд в Большом Манчестере, превышающих £500, каждый квартал становятся общедоступными. Эти сведения включают в себя данные о поставщиках, названия отделов, описания товаров или услуг, суммы, даты и пр.
Однако на уровне персональных данных тенденция развивается в обратном направлении — в сторону защиты конфиденциальности или, с точки зрения этой книги, к затемнению отдельных данных. В русле этой тенденции 25 мая 2018 г. вступил в силу Общий регламент ЕС по защите данных (GDPR), упомянутый в главе 2. Он налагает обязательства на организации, которые хранят и используют персональные данные, и дает людям более широкие права на свои данные и способы их использования. Персональные данные — это данные, относящиеся к живому человеку, по которым он может быть идентифицирован. GDPR требует, чтобы организации объясняли, с какой целью они собирают и используют данные, и делали это только с однозначного и свободного согласия (или предоставляя особые обоснования, такие как судебное требование или спасение чьей-то жизни). Люди имеют право доступа к своим данным и право требования их исправления, удаления или передачи другому оператору. Стоит также отметить, что такого рода юридические требования создают значительные бюрократические препоны для предприятий, которые обрабатывают большие объемы персональных данных.
Обратите внимание, что я использовал слово «прозрачность» в том смысле, в котором оно обычно используется, когда люди говорят о прозрачности данных, — то есть обозначая возможность доступа. Но сам феномен прозрачности может быть интерпретирован и по-другому — как нечто прозрачное, что позволяет видеть сквозь себя и что, возможно, вы даже не замечаете. Окна и линзы очков тоже прозрачны. И неприятный факт заключается в том, что многие из наиболее эффективных мошенничеств и афер основаны именно на такой интерпретации прозрачности, когда все происходит незаметно для вас и выглядит достоверно, но ровно до тех пор, пока вы вдруг не замечаете какие-то несоответствия. В этом смысле «прозрачность» имеет сходство с «темнотой», во всяком случае в том, что касается данных.
В этой главе мы говорили о том, как распознать проблему темных данных и, возможно, решить ее, в частности, в контексте научных исследований. Мы рассмотрели идею сопоставления теории с данными, ошибки, допускаемые из-за их недостатка, мошенническое использование данных, фальшивые данные, выбор экстремальных значений в наборе, проблему направленного поиска аномалий и предположение, что «большинство научных открытий ошибочно». Мы также познакомились с принципом проверки достоверности источника, заключенном в простом вопросе: «Кто вам такое сказал?»
Первая часть книги была посвящена способам, которыми темные данные могут создавать проблемы. Во второй части мы рассмотрим методы обнаружения темных данных, их учета и узнаем то, как они могут быть использованы.