Мирные переговоры в области вероятностей
Если нам все-таки удастся ввести в обиход статистическую идею XVIII века, каковы шансы, что она станет нашим излюбленным методом практического определения вероятностей? Зависит от того, сможем ли мы успешно сочетать два очень разных мира, подчеркивает Регина Нуццо.
Начнем со старого лозунга, который любили печатать на футболках: «Статистика – это когда можно не говорить, что вы уверены». Главная работа статистики – делать выводы, не зная всех фактов. Сколько жителей страны поддерживают легализацию марихуаны? Вы не можете опросить всех. Несколько раз подряд лето выдалось жарким: что это – отражение естественной изменчивости климата или же новая тенденция? Нельзя сказать определенно, мы ведь не можем заглянуть в будущее.
Ответы на такие вопросы обычно сопровождаются численной величиной – вероятностью. Но эта единичная величина зачастую маскирует собой ключевое различие между двумя несходными разновидностями неопределенности – между тем, чего мы не знаем, и тем, чего мы не можем узнать.
Неопределенность типа «не можем узнать» берет начало в процессах, которые протекают в реальном мире и результат которых кажется случайным для всех, кто их наблюдает: как ляжет игральная кость, где остановится колесо рулетки, в какой именно момент распадется конкретный атом в радиоактивном образце. Это мир «частотных» вероятностей: если достаточно долго бросать кости или пронаблюдать за достаточным количеством распадающихся атомов, можно получить неплохое представление об относительной частоте возможных исходов и выработать способ численной оценки их вероятности.
Неопределенность типа «не знаем» – штука более скользкая. Здесь играет роль личное неведение, а не простая универсальная случайность. Каков пол у еще не родившегося ребенка вашей беременной соседки? Это уже данность, так что случай сюда не вовлечен. Но вы пока не знаете, поэтому не уверены в ответе, для вас это – неопределенность. Если вы любите тотализатор, где разрешается делать ставки по ходу игры, вы можете задаться вопросом: кто победит в футбольном матче, который сейчас в самом разгаре? Его исход сейчас тоже определяется не одной лишь случайностью. И если вы внимательно следили за ходом игры, вы более уверены в ее исходе, чем ваш приятель, беспечно дремавший с начала матча. Добро пожаловать в царство байесовской статистики!
По подходу к этим двум различным типам неопределенности как раз и делятся фреквентисты (частотники) и байесианцы. Закоренелый фреквентист не желает заниматься неопределенностями типа «не знаем» и вообще какими бы то ни было вероятностными характеристиками, которые нельзя вывести из воспроизводимых экспериментов, генераторов случайных чисел, анализа случайных выборок населения и т. п. Напротив, байесианец без зазрения совести пользуется всякого рода априорной информацией – скажем, сведениями о характере голосования на предыдущих выборах – для того, чтобы заполнить пробелы. «Байесианцы с радостью приписывают ту или иную вероятность утверждениям о мире. Фреквентисты никогда так не делают, – объясняет Тони О’Хаган, специалист по статистике из британского Шеффилдского университета, занимающийся изучением байесовских методов. – Что такое байесовский подход? Мы пытаемся отвечать на вопросы, привлекая все данные, имеющие отношение к делу, даже если вклад каких-то из них зависит от субъективного суждения».
В конце XVIII – начале XIX века байесовские методы (и им подобные) помогли разобраться в широком спектре проблем, казавшихся неразрешимыми: от оценки массы Юпитера до расчета общемирового количества новорожденных мальчиков по отношению к новорожденным девочкам. Но эти методы постепенно вышли из моды, став жертвой начинавшейся эпохи Больших Данных. Все – от усовершенствованных технологий астрономических наблюдений до неслыханно подробных статистических таблиц смертности, заболеваемости и преступности – внушало успокоительное ощущение объективности. Байесовские методы разумных догадок казались безнадежно устаревшими и довольно-таки ненаучными по сравнению с новыми статистическими подходами. Учение фреквентистов, выдвигавшее на первый план бесстрастный обсчет количественных результатов рандомизированных экспериментов (т. е. проводящихся методом случайной выборки), стало пользоваться все большей популярностью.
Квантовая теория, зародившаяся в начале XX века, даже саму реальность выражала языком частотной вероятности, что дало дальнейший толчок развитию методов фреквентистов. Два направления статистической мысли постепенно все больше отдалялись друг от друга. Адепты того или иного учения в конце концов стали направлять статьи лишь в симпатизирующие им журналы, проводить собственные конференции, даже создавать отдельные факультеты. Эмоции часто зашкаливали. Шерон Берш Мак-Грейн, автор научно-популярных работ, вспоминает, что когда она начала готовить свою книгу «Теория, которая не желает умирать», посвященную истории байесианских идей, один статистик, предпочитавший учение фреквентистов, долго клеймил ее по телефону за «попытку легитимизировать байесианство». А у байесианцев в ответ развилось что-то вроде мании преследования, замечает Роберт Касс из Университета Карнеги – Меллона: «Некоторые байесианцы стали слишком уж уверенными в своей правоте и непогрешимости. Они отстаивают свои взгляды с каким-то религиозным рвением».
На самом-то деле и тот, и другой метод имеет свои преимущества и свои недостатки. Когда экспериментальных точек недостаточно (то есть когда у нас лишь скудное количество данных) и когда на повторение эксперимента надежды мало, байесианские методы позволяют неплохо выжимать информацию из тех немногих результатов, которые у нас все-таки имеются. Возьмем, к примеру, астрофизику. Зафиксированная в 1987 году вспышка сверхновой в одной из ближайших к нам галактик, Большом Магеллановом облаке, дала возможность проверить давно существующие теории о нейтринных всплесках, порождаемых такими явлениями. Но детекторы уловили только 24 из этих частиц, вечно ускользающих от земных наблюдателей. Без изобилия воспроизводимых результатов методы фреквентистов никуда не годились, но гибкий байесианский подход, тянувший информацию отовсюду, предоставил идеальный путь для оценки конкурирующих теорий астрономов.
Тут очень помогли хорошо обоснованные теории – они дали бесспорную, априорную, информацию для того, чтобы начать этот анализ. Когда такой информации нет, байесовский анализ нередко работает по принципу «мусор на входе – мусор и на выходе». Это одна из причин, по которым в суде с большой осторожностью применяют байесовские методы, хотя, на первый взгляд, они представляют идеальный путь для синтеза разного рода запутанных улик, поступающих из разных источников. В штате Нью-Джерси при разбирательстве в 1993 году дела об отцовстве применяли байесовскую статистику, но суд решил, что каждому из присяжных следует воспользоваться собственными априорными данными касательно вероятности того, является ли подсудимый отцом ребенка, хотя из-за этого каждый присяжный должен был вынести свою статистическую оценку виновности. «Не существует верного или неверного байесианского ответа, – замечает Ларри Вассерман из Университета Карнеги – Меллона. – Ну чистый постмодернизм».
Кроме того, чтобы найти хорошие априорные данные, может потребоваться непомерная и невозможная глубина знания. Допустим, ученые пытаются установить причины болезни Альцгеймера. Они могут проанализировать 5000 генов. Использование байесовских методов потребовало бы 5000 априорных параметров, касающихся возможного вклада каждого гена в развитие болезни, плюс еще 25 миллионов параметров – если мы хотим рассмотреть пары генов, работающих совместно. «Никто не в состоянии построить разумную систему априорных параметров для столь многомерной проблемы, – замечает Вассерман. – И даже если кто-нибудь ее построит, никто ей не поверит».
Откровенно говоря, без всякой дополнительной информации стандартные методы фреквентистов, предполагающие просеивание множества мелких генетических эффектов, не позволят с такой уж легкостью выявить по-настоящему важные гены и их комбинации. Но с этой проблемой, пожалуй, все-таки проще справиться, чем с добыванием 25 миллионов разумных байесианских догадок.
В целом частотный подход хорошо работает, когда у нас есть изобилие данных, представленных наиболее объективным из возможных способов. Громкий пример – поиски бозона Хиг гса, завершенные в 2012 году близ Женевы в лаборатории ЦЕРНа, занимающейся изучением физики элементарных частиц. Наблюдения дали довольно неожиданный результат. Группы исследователей сошлись во мнении, что если бы на самом деле никакого бозона Хиггса не существовало, то столь же неожиданный (или даже более неожиданный) характер данных наблюдался бы лишь в 1 из 3,5 миллиона гипотетических последовательных опытов. Вероятность так мала, что исследователи посчитали разумным отвергнуть идею Вселенной без бозона Хиггса.
Все эти формулировки могут показаться вам несколько путаными. Они отражают главную слабость частотного подхода: его сторонники подчас идут на всевозможные ухищрения, не желая иметь дело с неопределенностями типа «не знаем». Бозон Хиггса либо существует, либо нет, и невозможность дать определенный ответ объясняется исключительно нехваткой информации. Фреквентист строгих взглядов, по сути, даже не может вынести прямое суждение о вероятности его существования, вот почему специалисты ЦЕРНа так осторожничали (хотя некоторые журналисты и другие непосвященные выражали свои мнения на сей счет куда свободнее).
Непосредственное сравнение двух методов может показать нам, какую путаницу способны породить эти подходы. Возьмем, скажем, проведенные в 1990-х годах весьма противоречивые клинические испытания двух противоинфарктных средств – стрептокиназы и тканевого активатора плазминогена. Вначале частотный анализ приписал «вероятность ошибки» (p) 0,001 исследованию, которое как будто показывало, что после применения нового, более дорогостоящего метода лечения (с помощью тканевого активатора плазминогена) выживаемость больных выше. Иными словами, утверждалось, что если бы уровень смертности для двух препаратов был равным, то уровни смертности, подобные реально наблюдавшимся (или лучше), проявлялись бы лишь в каждом из тысячи последовательных испытаний.
Это не значит, что исследователи были на 99,9 % уверены в том, что новый препарат лучше, хотя подобные сообщения, опять же, часто интерпретируют именно так. Когда другие специалисты заново проанализировали эти испытания, но уже по Байесу, взяв при этом результаты предшествующих клинических тестов как априорные данные, они заключили: «Непосредственная» вероятность того, что новый препарат лучше, составляет лишь около 17 %. «При баейсианском подходе мы напрямую обращаемся к интересующему нас вопросу и говорим, насколько вероятно, что положительный ответ на него истинен, – объясняет Дэвид Шпигельхальтер из Кембриджского университета. – Да и кто не захочет говорить именно об этом?»
У всякого свой любимый конек. Но, может быть, преимущества и недостатки каждого из этих двух подходов как бы побуждают нас задуматься: а не лучше ли как-то скомбинировать элементы обоих? Касс принадлежит к новому племени статистиков, которое как раз этим и занимается. «Для меня статистика – своего рода язык, – говорит он. – Можно свободно владеть французским и английским, спокойно переключаясь с одного на другой в случае необходимости».
Стивен Сенн, специалист по фармацевтической статистике из Люксембургского института здоровья, с ним согласен: «Я использую, так сказать, „смешанную статистику“, в которой отовсюду надергано понемногу. Нередко я работаю как фреквентсит, но оставляю за собой право выполнять байесианский анализ и мыслить по-байесовски».
Касс приводит в пример одно исследование: вместе с коллегами он анализировал характер активации двух сотен нейронов в зрительно-двигательной зоне обезьяньего мозга. Исследования, проводившиеся ранее нейробиологами, дали Кассу и его коллегам предварительную информацию о том, насколько быстро должны активироваться эти нейроны и насколько быстро скорость их активации может изменяться со временем. Эти данные они учли при байесианском анализе, а затем стали оценивать свои результаты при помощи стандартных методов фреквентистов. Байесианские априорные данные позволили «запустить» анализ так, чтобы частотные методы сумели вычленить даже крошечные отличия в океане шумов. Эффективность совместного применения обоих подходов оказалась значительно выше, чем для каждого метода в отдельности.
Иногда байесовские методы и идеи фреквентистов сплетаются столь тесно, что получается нечто новое. В масштабных геномных исследованиях байесовский анализ может использовать тот факт, что эксперимент, где изучается эффект двух тысяч генов, почти эквивалентен двум тысячам параллельных экспериментов, так что этот опыт способен обеспечивать «перекрестное опыление» для разных сегментов анализа: результаты одних становятся априорными данными для других, благодаря чему постепенно улучшается точность выводов частотного анализа.
«Такой подход дает несколько лучшие результаты, – говорит Джефф Лик из Университета Джона Хопкинса (Балтимор, штат Мэриленд). – Он серьезно изменил наш способ анализа геномной информации».
Кроме того, такой подход ломает барьеры. «Каким его назвать – частотным или байесовским? – спрашивает в своем блоге Рифаэль Иризарри, гарвардский биостатистик. – Для прикладной статистики, которой я занимаюсь, это, в общем-то, неважно».
Впрочем, споры еще не совсем утихли. «По сути, статистика – это абстрактный язык, с помощью которого наука описывает результаты, рассказывая о том, как устроена природа и как она работает, – говорит Касс. – Но рассказывать можно по-разному. И я не исключаю, что лет через 200 в статистике произойдет революция и появится какой-нибудь блестящий синтез байесианства и частотного подхода. Но мне кажется, что здесь всегда будет идти борьба как минимум двух методов».