Книга: Байесовская статистика: Star Wars, LEGO, резиновые уточки и многое другое
Назад: 7. Теорема Байеса и Lego
Дальше: 9. Байесовские априорные вероятности и распределение вероятностей

8. Априорная и апостериорная вероятности и правдоподобие в теореме Байеса

Теперь, узнав, как вывести теорему Байеса из пространственных соображений, давайте поймем, как ее использовать для рассуждений о вероятностях. В этой главе мы применим ее для вычисления, насколько правдоподобны наши предположения при имеющихся данных. При этом мы рассмотрим три компонента этой теоремы — априорную вероятность, апостериорную вероятность и правдоподобие. С ними со всеми мы будем часто встречаться в нашем путешествии по просторам байесовской статистики.

Три компонента

Теорема Байеса позволяет нам выразить численно, насколько наблюдаемые данные влияют на наши представления. При этом мы хотим знать P (предположения | данные) — то есть насколько сильно мы держимся за наши предположения при условии имеющихся данных. Эта часть формулы называется апостериорной вероятностью, именно для ее поиска мы будем применять теорему Байеса. Для этого нам понадобится следующий компонент: вероятность имеющихся данных при условии наших предположений, P (данные | предположения). Он известен как правдоподобие, поскольку показывает, насколько правдоподобны данные (при условии имеющихся предположений).

Наконец, мы хотим оценить вероятность априорных предположений, P (предположения). Этот компонент называется априорной вероятностью и характеризует нашу убежденность до того, как мы увидели данные. Правдоподобие и априорная вероятность позволяют вычислить апостериорную вероятность. Чтобы апостериорная вероятность лежала между 0 и 1, нам надо поделить на вероятность P (данные). На практике эту величину часто можно игнорировать, поэтому специального имени у нее нет.

Как вы уже знаете, предположения обычно называют гипотезами, а данные мы будем обозначать D. На рис. 8.1 показаны все компоненты теоремы Байеса.

458255.png 

Рис. 8.1. Компоненты теоремы Байеса

В этой главе мы будем расследовать преступления, собирая кусочки теоремы и делая выводы о произошедшем.

Осмотр места происшествия

Предположим, что как-то, вернувшись с работы, вы обнаруживаете разбитое окно, открытую входную дверь и пропажу ноутбука. Первая ваша мысль: «Ограбили!» Но как вы пришли к такому выводу и, главное, как численно оценить это предположение?

Итак, ваша первая гипотеза H= вас ограбили. Мы хотим оценить, насколько она похожа на правду, то есть найти апостериорную вероятность

P (ограбление | разбитое окно, открытая входная дверь, пропавший ноутбук).

Для этого надо подставить недостающие кусочки теоремы Байеса.

Находим правдоподобие

Сначала нам нужно найти правдоподобие — в нашей ситуации вероятность, что мы увидим ту же картину при ограблении (показывающую, насколько данные согласуются с гипотезой):

P (разбитое окно, открытая входная дверь, пропавший ноутбук | ограбление).

По сути, мы задаем вопрос: если бы вас ограбили, насколько вероятно было бы увидеть такую картину? Можно представить множество ситуаций, в которых не было бы чего-нибудь из описанного. Например, опытный вор может вскрыть замок, забрать ноутбук и запереть за собой дверь без всяких разбитых окон. С другой стороны, грабитель мог бы разбить окно, взять ноутбук и улизнуть через окно. Однако то, что мы видим, кажется весьма типичной сценой при ограблении, так что давайте примем, что вероятность такой картины при ограблении составляет 3/10.

Важно заметить, что, хотя в нашем примере мы просто прикинули вероятность, можно изучить вопрос и сделать оценку получше. Можно обратиться в местное отделение полиции и запросить статистику по ограблениям или изучить новостные заметки. Таким образом, мы получим более точную оценку правдоподобия: при ограблении вы увидите именно такую картину.

Потрясающее свойство теоремы Байеса — возможность использовать ее как в привычных ситуациях, так и для огромных массивов данных и очень точных вероятностей. Даже если вам кажется, что 3/10 — не очень хорошая оценка, всегда можно вернуться к вычислениям — что мы и сделаем после — и посмотреть, как меняется результат при других предположениях. Например, если вы считаете, что вероятность увиденного вами при условии ограбления — всего 3/100, легко можно все пересчитать, используя это предположение. Благодаря байесовской статистике мы фактически можем измерить наше несогласие с другими! Так как предположения связаны с численными значениями вероятности, можно повторить все вычисления этой главы с другими вероятностями и посмотреть, отразится ли это на выводах.

Вычисляем априорную вероятность

Теперь нужно определить, какова вообще вероятность, что вас ограбят, — то есть априорная вероятность. Априорные вероятности очень важны, они позволяют использовать общую информацию об обстоятельствах. Например, пусть описанная ситуация происходит на пустынном острове, где вы — единственный житель. В таком случае вторжение грабителя (по крайней мере, двуногого) практически невозможно.

А быть может, наоборот, ваш дом расположен в довольно криминальном районе, где часты ограбления. Для простоты предположим, что вероятность быть ограбленным

Eqn0070.tif 

Важно, что мы всегда можем скорректировать эти цифры на основании новой информации.

Теперь почти все готово для вычисления апостериорной вероятности, осталась только нормализация. Прежде чем двигаться дальше, посмотрим на ненормализованную апостериорную вероятность:

Eqn0071.tif 

Это очень маленькое значение, что неожиданно. Казалось бы, вероятность ограбления с учетом увиденной картины весьма высока. Но мы еще не учли вероятность увиденного.

Нормализация данных

В нашем выражении не хватает вероятности наблюдаемых данных (безотносительно того, ограбили вас или нет). В данном примере это вероятность того, что окно разбито, дверь открыта, а ноутбук пропал — неважно, по какой причине. Теперь выражение выглядит так:

Eqn0072.tif.

Числитель очень мал, но мы просто не нормализовали его вероятностью имеющихся данных. В табл. 8.1 показано, как при изменении P (D) меняется апостериорная вероятность.

Когда вероятность имеющихся данных уменьшается, апостериорная вероятность увеличивается. Это связано с тем, что по мере того как наблюдаемые нами данные становятся все более маловероятными, то обычно маловероятное объяснение лучше объясняет событие (рис. 8.2).

Таблица 8.1. Как апостериорная вероятность зависит от P (D)

P (D)

Апостериорная вероятность

0,050

0,006

0,010

0,030

0,005

0,060

0,001

0,300

Рассмотрим такой исключительный пример: ваш друг может стать миллионером, только выиграв в лотерею или получив наследство от доселе неизвестного родственника. Это крайне маловероятно, но вы узнаете, что он таки стал миллионером. Теперь вероятность, что друг выиграл лотерею, становится гораздо выше — ведь это один из всего двух способов, которыми друг мог получить миллион.

471407.png 

Рис. 8.2. Когда вероятность имеющихся данных уменьшается, апостериорная вероятность увеличивается

Конечно же, ограбление — лишь одно из возможных объяснений увиденного вами, есть и множество других. Но если мы не знаем вероятность того, что наблюдаем, мы не можем нормализовать остальные вероятности. Итак, чему же равно P (D)? Это сложный вопрос. В реальных задачах P (D) часто очень трудно вычислить точно. Для всех других компонентов формулы можно собрать настоящие сведения (хотя сейчас мы и взяли значения наугад). Чтобы узнать априорную вероятность P (ограбление), можно посмотреть на данные о преступности и зафиксировать вероятность, с которой в заданный день дом на вашей улице будет ограблен. Мы также теоретически можем исследовать прошлые ограбления и точнее оценить правдоподобие увиденной картины при условии, что произошло ограбление. Но как можно даже примерно оценить P (разбитое окно, открытая входная дверь, пропавший ноутбук)?

Вместо выяснения вероятности наблюдаемых данных можно посчитать вероятность всех прочих событий, объясняющих наблюдаемую картину. Вероятность всех объяснений должна в сумме давать 1, так что потом мы сможем найти P (D). Но в нашей ситуации возможных объяснений неограниченное количество. Без P (D) мы в затруднении. В главах 6 и 7, когда мы считали вероятность, что продавец — мужчина, и вероятность ткнуть в разноцветные кирпичики, мы знали P (D). Это позволяло точно вычислить вероятность, что гипотеза верна при условии наблюдаемых данных. Без P (D) нам не посчитать P (ограбление | разбитое окно, открытая входная дверь, пропавший ноутбук). Но не все потеряно.

К счастью, иногда не нужно знать P (D), поскольку достаточно просто сравнить гипотезы. В нашем примере мы сравним вероятность ограбления и других возможных объяснений. Это можно сделать, рассмотрев отношение ненормализованных апостериорных вероятностей. Так как P (D) не меняется, ее можно сократить.

Итак, вместо вычисления P (D) мы посвятим остаток главы формулировке альтернативной гипотезы, вычислению ее апостериорной вероятности и сравнению апостериорных вероятностей двух гипотез. Мы не можем вычислить точную вероятность того, что были ограблены, но по-прежнему, благодаря теореме Байеса, можем поиграть в детективов.

Рассматриваем альтернативную гипотезу

Сформулируем альтернативную гипотезу и сравним с исходной. Новая гипотеза будет состоять из трех событий:

1. Соседский ребенок разбил мячом окно.

2. Вы сами забыли закрыть дверь.

3. Вы забыли ноутбук на работе.

Будем обращаться к этим объяснениям по их номеру, а все их вместе обозначим через H2, то есть P (H2) =P (1, 2, 3). Найдем их правдоподобие и априорную вероятность.

Правдоподобие альтернативной гипотезы

Напомним, что правдоподобие — это вероятность имеющихся данных при условии гипотезы, то есть P (D | H2). Интересно (и логично), что оно окажется равным единице: P (D | H2) = 1.

Если произойдут все события из нашей гипотезы, вы непременно получите разбитое окно, открытую дверь и отсутствующий ноутбук.

Априорная вероятность альтернативной гипотезы

Априорная вероятность характеризует возможность того, что произошли все три события. Значит, надо сначала выяснить вероятность каждого из них, а потом воспользоваться правилом произведения. Мы примем, что эти три события независимы. Первая часть нашей гипотезы — соседский ребенок разбил окно мячом. Так часто бывает в фильмах, но в жизни лично я не слышал о таких происшествиях, зато часто слышал про ограбления. Предположим, что попадание мячом в окно в два раза менее вероятно, чем кража.

Eqn0073.tif 

Вторая часть гипотезы состоит в том, что вы оставили дверь незапертой. Предположим, что это случается раз в месяц, то есть

Eqn0074.tif 

Наконец, забытый ноутбук. Принести ноутбук на работу и оставить его там может быть обычным делом, но совсем не помнить об этом — случай более редкий. Предположим, что такое происходит раз в год:

Eqn0075.tif 

Теперь, присвоив вероятности всем событиям гипотезы H2, мы можем вычислить априорную вероятность по правилу произведения:

Eqn0076.tif 

Как можно видеть, априорная вероятность всех трех событий чрезвычайно мала. Теперь нам надо сравнить апостериорные вероятности гипотез.

Апостериорная вероятность альтернативной гипотезы

Мы знаем, что правдоподобие P (D | H2) равно 1, и если вторая гипотеза верна, мы точно получим имеющуюся картину. Без учета априорной вероятности кажется, что апостериорная вероятность второй гипотезы должна быть гораздо больше первоначальной гипотезы об ограблении (ведь при ней вовсе не обязательно мы будем наблюдать все данные). Теперь посмотрим, как априорная вероятность кардинально меняет ненормализованную апостериорную вероятность:

Eqn0077.tif 

Теперь надо сравнить наши апостериорные вероятности (а значит, убедительность гипотез), вычислив отношение. И для этого не требуется P (D).

Сравнение ненормализованных апостериорных вероятностей

Нам нужно отношение двух апостериорных вероятностей, которое покажет, во сколько раз одна гипотеза правдоподобнее другой. Исходную гипотезу мы обозначим за H1, и отношение будет выглядеть так:

Eqn0078.tif 

Теперь распишем числитель и знаменатель по теореме Байеса как P (H) ×P (D | H) × 1/P (D):

Eqn0079.tif 

Заметим, что и числитель, и знаменатель содержат 1/P (D), а значит, мы можем сократить этот множитель, и отношение не изменится. Именно поэтому P (D) не имеет значения при сравнении гипотез. Мы получили отношение ненормализованных апостериорных вероятностей. Так как апостериорная вероятность — мера нашей уверенности в гипотезе, вычисленное отношение говорит нам, насколько лучше объясняет данные H1, чем H2 (и не требует знания P (D)). Сократим P (D) и подставим числа:

Eqn0080.tif 

Это значит, что H1 объясняет увиденное в 6570 раз лучше, чем H2. Иными словами, наша исходная гипотеза (H1) объясняет данные гораздо лучше, чем альтернативная (H2). Это хорошо согласуется с интуицией — учитывая наблюдаемую картину, ограбление кажется более правдоподобным вариантом.

Хочется строго сформулировать свойства ненормализованной вероятности и в дальнейшем использовать их. Для этого понадобится следующая версия теоремы Байеса:

Eqn0081.tif 

Ее можно прочитать так: «Апостериорная вероятность — вероятность гипотезы при условии данных — пропорциональна априорной вероятности H, умноженной на вероятность данных при условии H».

Эта форма теоремы Байеса очень полезна, когда нужно сравнить вероятность двух идей, но нет возможности легко узнать P (D). Невозможно найти само по себе значение вероятности для гипотезы, но все еще можно сравнивать гипотезы по теореме Байеса. Сравнение гипотез означает, что мы всегда можем увидеть, во сколько раз одно объяснение лучше, чем другое.

Заключение

В этой главе мы узнали, как теорема Байеса становится инструментом для моделирования наших представлений о мире с учетом имеющихся данных. Теорема Байеса содержит три важнейших компонента: апостериорную вероятность P (H | D), априорную вероятность P (H) и правдоподобие P (D | H). Вероятность самих данных P (D) в этом списке отсутствует, поскольку не нужна нам в случаях, когда необходимо только сравнить гипотезы.

Упражнения

Попробуйте ответить на эти вопросы, чтобы оценить свое понимание компонентов теоремы Байеса.

1. Как уже говорилось, вы можете не согласиться с нашей оценкой правдоподобия для первой гипотезы. Как это повлияет на меру нашей убежденности в превосходстве H1 над H2?

Eqn0082.gif 

Eqn0082.gif 

2. Насколько малой должна быть априорная вероятность ограбления, чтобы гипотезы H1 и H2 при имеющихся данных были равновероятны?

Назад: 7. Теорема Байеса и Lego
Дальше: 9. Байесовские априорные вероятности и распределение вероятностей