Книга: Байесовская статистика: Star Wars, LEGO, резиновые уточки и многое другое
Назад: 15. От оценки параметров к проверке гипотез: создание байесовских А/В-тестов
Дальше: 17. Байесовские рассуждения в «Сумеречной зоне»

16. Введение в коэффициент Байеса и апостериорные шансы: конкуренция идей

В предыдущей главе мы увидели, что проверку гипотезы можно рассматривать как расширение оценки параметров. В этой главе подумаем о проверке гипотез как о способе сравнивать идеи, используя важный математический инструмент — коэффициент Байеса. Коэффициент Байеса — это формула, которая проверяет достоверность одной гипотезы, сравнивая ее с другой. В результате мы видим, во сколько раз одна гипотеза вероятнее, чем другая.

Далее мы научимся объединять коэффициент Байеса с априорными убеждениями, чтобы находить апостериорные шансы, которые указывают, насколько одно убеждение сильнее, чем другое, при объяснении данных.

Пересмотр теоремы Байеса

В главе 6 была представлена теорема Байеса, которая выглядит так:

Eqn0116.tif.

Напомню, что существуют три части этой формулы, которые называются так:

• P (H | D) — апостериорная вероятность, которая указывает, как сильно мы должны верить в гипотезу, учитывая данные;

• P (H) — априорное убеждение, или вероятность гипотезы до просмотра данных;

• P (D | H) — правдоподобность получения существующих данных в случае, если бы наша гипотеза была верной.

Последняя часть, P (D), является вероятностью данных, наблюдаемых независимо от гипотезы. Эта часть нужна, чтобы убедиться, что апостериорная вероятность правильно размещена где-то между 0 и 1. Если у нас есть все эти фрагменты информации, мы можем точно рассчитать, насколько сильно следует верить в гипотезу в условиях наблюдаемых данных. Но как я говорил в главе 8, P (D) очень трудно определить. Во многих случаях не очевидно, как можно выяснить вероятность наших данных. P (D) также совершенно не нужна, если все, что нас волнует, — это сравнение относительной силы двух разных гипотез.

По этим причинам часто используется пропорциональная форма теоремы Байеса, которая позволяет анализировать силу гипотез без P (D). Это выглядит так:

Eqn0117.tif.

Пропорциональная форма теоремы Байеса говорит, что апостериорная вероятность нашей гипотезы пропорциональна априорной, умноженной на правдоподобность. Мы можем использовать это для сравнения двух гипотез, исследовав соотношение априорного убеждения, умноженное на вероятность для каждой гипотезы, и применив формулу отношения апостериорных вероятностей:

Eqn0118.tif.

Теперь есть отношение того, насколько хорошо каждая из гипотез объясняет полученные данные. Если отношение равно 2, то H1 объясняет наблюдаемые данные дважды, так же как и H2, а если отношение равно 1/2, то H2 объясняет данные дважды, так же как и H1.

Создание проверки гипотезы с использованием отношения постериоров

Формула отношения постериоров дает апостериорные шансы, которые позволяют проверять гипотезы или представления об имеющихся данных. Даже когда мы знаем P (D), апостериорные шансы — полезный инструмент, потому что позволяет сравнивать идеи. Чтобы лучше понять апостериорные шансы, мы разделим формулу отношения постериоров на две части: коэффициент правдоподобности, или коэффициент Байеса, и коэффициент априорных вероятностей. Это стандартная и очень полезная практика, которая значительно упрощает анализ правдоподобности и априорной вероятности в отдельности.

Коэффициент Байеса

Используя формулу отношения постериоров, давайте предположим, что P (H1) =P (H2), то есть априорное убеждение в каждой гипотезе одинаково. В этом случае отношение априорных убеждений в гипотезах составляет всего 1, поэтому остается только:

Eqn0119.tif.

Это и есть коэффициент Байеса, отношение вероятностей двух гипотез.

Найдите минутку и подумайте о том, что говорит это уравнение. Когда мы собираемся спорить о нашем H1, то есть о нашей вере в мир, то думаем о сборе доказательств, подтверждающих наши убеждения. Поэтому типичный аргумент включает в себя создание набора данных D1, поддерживающего H1, и затем уже спор с другом, который собрал набор данных D2, поддерживающий его гипотезу, H2.

Но в байесовских рассуждениях мы не собираем доказательства в поддержку наших идей, а смотрим, насколько хорошо наши идеи объясняют полученные доказательства. Это соотношение говорит о вероятности того, что мы видим, учитывая то, что принимаем за правду, по сравнению с убеждениями, которые кто-то еще считает правдой. Наша гипотеза побеждает, если объясняет мир лучше, чем гипотеза оппонента.

Но если гипотеза оппонента объясняет данные гораздо лучше, чем наша, возможно, пришло время сменить убеждения. Ключевым моментом здесь является то, что в байесовских рассуждениях мы не беспокоимся о поддержке наших убеждений — мы сосредоточены на том, насколько хорошо убеждения поддерживают наблюдаемые данные. В конце концов, данные могут либо подтвердить наши идеи, либо заставить передумать.

Априорные шансы

До сих пор мы предполагали, что априорная вероятность каждой гипотезы одинакова. Это не всегда так: гипотеза может хорошо объяснять данные, даже если она маловероятна. Например, если вы потеряли телефон, то можете предположить, что либо оставили его в ванной, либо инопланетяне забрали его для изучения человеческих технологий, что достаточно хорошо объясняет данные. Тем не менее гипотеза с ванной явно более вероятна. Вот почему следует рассмотреть отношение априорных вероятностей:

Eqn0120.tif.

Это соотношение сравнивает вероятность двух гипотез до рассмотрения данных. При использовании по отношению к байесовскому коэффициенту это соотношение называется априорным шансом в нашем H1 и записывается как O (H1). Это представление полезно, потому что позволяет заметить, насколько сильно (или слабо) мы верим в гипотезу, которую проверяем. Когда это число больше 1, это означает, что априорные шансы подтверждают гипотезу, а когда оно меньше 1, это означает, что они противоречат гипотезе. Например, O (H1) = 100 означает, что без какой-либо другой информации мы считаем, что H1 в 100 раз более вероятна, чем альтернативная гипотеза. С другой стороны, когда O (H1) = 1/100, альтернативная гипотеза в 100 раз более вероятна, чем наша.

Апостериорные шансы

Если собрать коэффициент Байеса и предыдущие шансы, то получаются апостериорные шансы:

Eqn0121.tif.

Апостериорные шансы вычисляют, во сколько раз наша гипотеза лучше объясняет данные, чем гипотеза противника.

В табл. 16.1 приведены рекомендации по оценке различных значений апостериорных шансов.

Таблица 16.1. Рекомендации по оценке апостериорных шансов

Апостериорные шансы

Сила доказательств

1 к 3

Интересно, но ничего неопровержимого

3 к 20

Похоже, мы к чему-то движемся

20 к 150

Сильные доказательства в пользу H1

> 150

Неопровержимые доказательства

По соотношению этих шансов можно понять, стоит ли поменять мнение.

Хотя эти значения могут служить полезным руководством, байесовские рассуждения все еще являются формой рассуждений, это означает, что нужно использовать некоторые суждения. Если вы не согласны с другом, апостериорных шансов со значением 2 может быть достаточно, чтобы почувствовать себя уверенно. Если вы пытаетесь выяснить, пьете ли вы яд, апостериорная вероятность 100 все равно не поможет.

Далее рассмотрим два примера, в которых используется коэффициент Байеса для определения силы убеждений.

Проверка утяжеленной игральной кости

Коэффициент Байеса и апостериорные шансы можно использовать как форму проверки гипотезы, в которой каждый тест является соревнованием двух идеей. Предположим, у вашего друга в сумке лежат три шестигранных кубика. Один кубик утяжеленный — в половине случаев при подбрасывании выпадает шестерка. Два других кубика — тради­ционные игральные кости, где вероятность выпадения шестерки равна 1/6. Друг достает наугад кубик и бросает 10 раз со следующими результатами:

6, 1, 3, 6, 4, 5, 6, 1, 2, 6.

Нужно выяснить, является ли кубик утяжеленным. Утяжеленный кубик назовем H1, а обычный — H2.

Начнем с определения коэффициента Байеса:

Eqn0122.tif 

Первый шаг — вычисление P (D | H), или правдоподобности H1 и H2, учитывая наблюдаемые данные. В этом примере у друга выпало четыре шестерки и шесть не шестерок. Мы знаем, что если кубик утяжеленный, вероятность выпадения шестерки равна 1/2, а вероятность выпадения любой цифры, кроме шестерки, также равна 1/2. Это означает, что вероятность увидеть эти данные при использовании утяжеленного кубика равна:

Eqn0123.tif 

В случае честного кубика вероятность выпадения шестерки равна 1/6, тогда как вероятность выпадения чего-либо еще — 5/6. Таким образом, правдоподобность появления этих данные для H2, при гипотезе о том, что кубик честный, такова:

Eqn0124.tif 

Теперь вычислим коэффициент Байеса, который скажет нам, насколько H1 лучше, чем H2, если предположить, что каждая гипотеза была в одинаковой степени вероятна (это означает, что предыдущее отношение шансов равно 1):

Eqn0125.tif 

Это означает, что H1 (кубик нечестный) объясняет наблюдаемые данные почти в четыре раза лучше, чем H2.

Но это верно только в том случае, если H1 и H2 одинаково вероятны. Мы знаем, что у друга есть два честных кубика и только один утяжеленный, это означает, что обе гипотезы не одинаково вероятны. Основываясь на распределении игральных костей в сумке, мы знаем, что априорные вероятности для каждой гипотезы таковы:

Eqn0126.tif 

Исходя из этого, рассчитаем априорные шансы для H1:

Eqn0127.tif 

Поскольку в сумке есть только один утяжеленный кубик и два честных, то шансов вытащить честный кубик вдвое больше. С априорными шансами для H1 вычислим полные апостериорные шансы:

Eqn0128.tif 

Хотя начальное отношение правдоподобия показало, что H1 объясняет данные почти в четыре раза лучше, чем H2, апостериорные шансы показывают, что, поскольку вероятность H1 в два раза меньше вероятности H2, объяснение H1 только вдвое сильнее, чем H2.

Если вам очень нужно сделать вывод о том, утяжелен ли кубик или нет, лучше всего сказать, что он действительно утяжелен. Но апостериорные шансы менее 2 — не особенно убедительные доказательства в пользу H1. Если вы действительно хотите узнать, был ли утяжелен кубик, нужно будет бросить его еще несколько раз, пока доказательства в пользу одной или другой гипотезы не станут достаточно велики, чтобы можно было принять более верное решение.

Рассмотрим второй пример использования коэффициента Байеса для определения силы наших убеждений.

Самодиагностика по интернету

Многие попадались в эту ловушку: гуглили свои симптомы поздно ночью, а затем в ужасе утыкались в экран с мыслью, что стали жертвой ужасной неизлечимой болезни. К сожалению, редко кто подключает байесовские рассуждения, чтобы избавиться от ненужной тревоги. Давайте предположим, что вы допустили ошибку при поиске симптомов и нашли два возможных заболевания, которые им соответствуют. Вы не поддадитесь панике, а используете апостериорные шансы, чтобы оценить вероятность каждого заболевания.

Предположим, вы проснулись и обнаружили, что у вас звенит в ушах и плохо со слухом. Весь день вас это беспокоит, и вечером вы решаете, что надо поискать в интернете потенциальные причины таких симптомов. Беспокойство нарастает, и вы приходите к двум возможным гипотезам:

Ушная сера. В одном ухе слишком много ушной серы. Визит к врачу облегчит это состояние.

Вестибулярная шваннома. Это опухоль головного мозга, растущая на миелиновой оболочке вестибулярного нерва, вызывающая необратимую потерю слуха и, возможно, требующая операции на головном мозге.

Из двух вариантов наличие вестибулярной шванномы является наиболее тревожным. Конечно, может, это и просто ушная сера, но что, если нет? Что, если у вас опухоль мозга? Так как возможность опухоли головного мозга беспокоит больше всего, то эта гипотеза будет H1. Гипотеза H2 — у вас слишком много ушной серы в ухе.

Посмотрим, могут ли апостериорные шансы успокоить вас.

Как и в последнем примере, мы начнем с рассмотрения вероятности наблюдения этих симптомов, если каждая гипотеза верна, и вычислим коэффициент Байеса. Нужно вычислить P (D | H). Вы наблюдали два симптома: потеря слуха и шум в ушах.

Для вестибулярной шванномы вероятность потери слуха составляет 94 %, а вероятность возникновения шума в ушах (тиннитус) — 83 %. Это означает, что вероятность потери слуха и шума в ушах при вестибулярной шванноме составляет:

P (D | H1) = 0,94 × 0,89 = 0,78.

Сделаем то же самое для H2. В случае скопления ушной серы вероятность потери слуха составляет 63 %, а вероятность шума в ушах — 55 %. Правдоподобность появления симптомов при воздействии ушной серы:

P (D | H2) = 0,63 × 0,55 = 0,35.

Теперь имеется достаточно информации, чтобы взглянуть на коэффициент Байеса:

Eqn0129.tif 

Вот дела! Только один коэффициент Байеса мало помогает в решении проблемы. Принимая во внимание только отношение правдоподобия, кажется, что шансов на появление вестибулярной шванномы в два раза больше, чем на скопление ушной серы! К счастью, мы еще не закончили анализ.

Следующим шагом является определение априорных шансов каждой гипотезы. Если не считать симптомов, насколько вероятно, что кто-то столкнется с одной проблемой, а не с другой? Найдем эпидемиологические данные для каждого из этих заболеваний. Оказывается, вестибулярная шваннома является редким заболеванием. Только 11 людям из 1 000 000 в год ставят подобный диагноз. Априорные шансы выглядят так:

Eqn0130.tif.

Неудивительно, что воздействие ушной серы встречается гораздо чаще, с 37 000 случаев на 1 000 000 человек в год:

Eqn0131.tif.

Чтобы получить априорные шансы для H1, нужно посмотреть на соотношение этих двух априорных вероятностей:

Eqn0132.tif.

Основываясь только на априорной информации, у конкретного человека вероятность возникновения серной пробки в 3700 раз выше вероятности возникновения вестибулярной шванномы. Но прежде чем окончательно успокоиться, вычислим все шансы на победу. Умножим коэффициент Байеса на априорные шансы:

Eqn0133.tif.

Этот результат показывает, что гипотеза H2 примерно в 1659 раз более вероятна, чем H1. Ну вот, теперь можно расслабиться — утренний визит к врачу для чистки ушей, скорее всего, избавит вас от симптомов.

В повседневных рассуждениях легко переоценить вероятность страшных ситуаций, но используя байесовские рассуждения, можно разделить реальные риски и посмотреть, насколько они вероятны на самом деле.

Заключение

В этой главе вы узнали, как использовать коэффициент Байеса и апостериорные шансы для сравнения двух гипотез. Коэффициент Байеса не фокусируется на предоставлении данных в поддержку наших убеждений, а проверяет, насколько хорошо наши убеждения поддерживают наблюдаемые данные. В результате получается соотношение, которое отражает, во сколько раз одна гипотеза объясняет данные лучше, чем другая. Мы можем использовать его для укрепления своих априорных убеждений, если они объясняют данные лучше, чем альтернативные убеждения. С другой стороны, когда результат незначителен, можно подумать о смене мнения.

Упражнения

Чтобы убедиться, что вы понимаете коэффициент Байеса и апостериорные шансы, попробуйте ответить на эти вопросы.

1. Возвращаясь к задаче с игральными костями, предположим, что ваш друг допустил ошибку и внезапно осознал, что на самом деле было две нечестные кости и только одна честная. Как это изменит априорный и, следовательно, апостериорный шансы этой задачи? Вы более склонны верить, что бросаемая кость нечестная?

2. Вернемся к примеру с редкими заболеваниями. Предположим, вы обратились к врачу и после чистки ушей заметили, что симптомы не исчезли. Еще хуже, появился новый симптом: головокружение. Врач предлагает другое возможное объяснение, лабиринтит — вирусную инфекцию внутреннего уха, при которой в 98 % случаев возникает головокружение. Однако потеря слуха и шум в ушах менее распространены при этом заболевании; потеря слуха происходит только в 30 % случаев, а шум в ушах — только в 28 %. Головокружение также является возможным симптомом вестибулярной шванномы, но встречается только в 49 % случаев. В общей численности населения 35 человек на миллион заболевают лабиринтитом ежегодно. Каковы апостериорные шансы гипотезы, что у вас лабиринтит, по сравнению с гипотезой о вестибулярной шванноме?

Назад: 15. От оценки параметров к проверке гипотез: создание байесовских А/В-тестов
Дальше: 17. Байесовские рассуждения в «Сумеречной зоне»