Теперь, узнав, как вывести теорему Байеса из пространственных соображений, давайте поймем, как ее использовать для рассуждений о вероятностях. В этой главе мы применим ее для вычисления, насколько правдоподобны наши предположения при имеющихся данных. При этом мы рассмотрим три компонента этой теоремы — априорную вероятность, апостериорную вероятность и правдоподобие. С ними со всеми мы будем часто встречаться в нашем путешествии по просторам байесовской статистики.
Теорема Байеса позволяет нам выразить численно, насколько наблюдаемые данные влияют на наши представления. При этом мы хотим знать P (предположения | данные) — то есть насколько сильно мы держимся за наши предположения при условии имеющихся данных. Эта часть формулы называется апостериорной вероятностью, именно для ее поиска мы будем применять теорему Байеса. Для этого нам понадобится следующий компонент: вероятность имеющихся данных при условии наших предположений, P (данные | предположения). Он известен как правдоподобие, поскольку показывает, насколько правдоподобны данные (при условии имеющихся предположений).
Наконец, мы хотим оценить вероятность априорных предположений, P (предположения). Этот компонент называется априорной вероятностью и характеризует нашу убежденность до того, как мы увидели данные. Правдоподобие и априорная вероятность позволяют вычислить апостериорную вероятность. Чтобы апостериорная вероятность лежала между 0 и 1, нам надо поделить на вероятность P (данные). На практике эту величину часто можно игнорировать, поэтому специального имени у нее нет.
Как вы уже знаете, предположения обычно называют гипотезами, а данные мы будем обозначать D. На рис. 8.1 показаны все компоненты теоремы Байеса.
Рис. 8.1. Компоненты теоремы Байеса
В этой главе мы будем расследовать преступления, собирая кусочки теоремы и делая выводы о произошедшем.
Предположим, что как-то, вернувшись с работы, вы обнаруживаете разбитое окно, открытую входную дверь и пропажу ноутбука. Первая ваша мысль: «Ограбили!» Но как вы пришли к такому выводу и, главное, как численно оценить это предположение?
Итак, ваша первая гипотеза H= вас ограбили. Мы хотим оценить, насколько она похожа на правду, то есть найти апостериорную вероятность
P (ограбление | разбитое окно, открытая входная дверь, пропавший ноутбук).
Для этого надо подставить недостающие кусочки теоремы Байеса.
Сначала нам нужно найти правдоподобие — в нашей ситуации вероятность, что мы увидим ту же картину при ограблении (показывающую, насколько данные согласуются с гипотезой):
P (разбитое окно, открытая входная дверь, пропавший ноутбук | ограбление).
По сути, мы задаем вопрос: если бы вас ограбили, насколько вероятно было бы увидеть такую картину? Можно представить множество ситуаций, в которых не было бы чего-нибудь из описанного. Например, опытный вор может вскрыть замок, забрать ноутбук и запереть за собой дверь без всяких разбитых окон. С другой стороны, грабитель мог бы разбить окно, взять ноутбук и улизнуть через окно. Однако то, что мы видим, кажется весьма типичной сценой при ограблении, так что давайте примем, что вероятность такой картины при ограблении составляет 3/10.
Важно заметить, что, хотя в нашем примере мы просто прикинули вероятность, можно изучить вопрос и сделать оценку получше. Можно обратиться в местное отделение полиции и запросить статистику по ограблениям или изучить новостные заметки. Таким образом, мы получим более точную оценку правдоподобия: при ограблении вы увидите именно такую картину.
Потрясающее свойство теоремы Байеса — возможность использовать ее как в привычных ситуациях, так и для огромных массивов данных и очень точных вероятностей. Даже если вам кажется, что 3/10 — не очень хорошая оценка, всегда можно вернуться к вычислениям — что мы и сделаем после — и посмотреть, как меняется результат при других предположениях. Например, если вы считаете, что вероятность увиденного вами при условии ограбления — всего 3/100, легко можно все пересчитать, используя это предположение. Благодаря байесовской статистике мы фактически можем измерить наше несогласие с другими! Так как предположения связаны с численными значениями вероятности, можно повторить все вычисления этой главы с другими вероятностями и посмотреть, отразится ли это на выводах.
Теперь нужно определить, какова вообще вероятность, что вас ограбят, — то есть априорная вероятность. Априорные вероятности очень важны, они позволяют использовать общую информацию об обстоятельствах. Например, пусть описанная ситуация происходит на пустынном острове, где вы — единственный житель. В таком случае вторжение грабителя (по крайней мере, двуногого) практически невозможно.
А быть может, наоборот, ваш дом расположен в довольно криминальном районе, где часты ограбления. Для простоты предположим, что вероятность быть ограбленным
Важно, что мы всегда можем скорректировать эти цифры на основании новой информации.
Теперь почти все готово для вычисления апостериорной вероятности, осталась только нормализация. Прежде чем двигаться дальше, посмотрим на ненормализованную апостериорную вероятность:
Это очень маленькое значение, что неожиданно. Казалось бы, вероятность ограбления с учетом увиденной картины весьма высока. Но мы еще не учли вероятность увиденного.
В нашем выражении не хватает вероятности наблюдаемых данных (безотносительно того, ограбили вас или нет). В данном примере это вероятность того, что окно разбито, дверь открыта, а ноутбук пропал — неважно, по какой причине. Теперь выражение выглядит так:
.
Числитель очень мал, но мы просто не нормализовали его вероятностью имеющихся данных. В табл. 8.1 показано, как при изменении P (D) меняется апостериорная вероятность.
Когда вероятность имеющихся данных уменьшается, апостериорная вероятность увеличивается. Это связано с тем, что по мере того как наблюдаемые нами данные становятся все более маловероятными, то обычно маловероятное объяснение лучше объясняет событие (рис. 8.2).
Таблица 8.1. Как апостериорная вероятность зависит от P (D)
P (D) | Апостериорная вероятность |
0,050 | 0,006 |
0,010 | 0,030 |
0,005 | 0,060 |
0,001 | 0,300 |
Рассмотрим такой исключительный пример: ваш друг может стать миллионером, только выиграв в лотерею или получив наследство от доселе неизвестного родственника. Это крайне маловероятно, но вы узнаете, что он таки стал миллионером. Теперь вероятность, что друг выиграл лотерею, становится гораздо выше — ведь это один из всего двух способов, которыми друг мог получить миллион.
Рис. 8.2. Когда вероятность имеющихся данных уменьшается, апостериорная вероятность увеличивается
Конечно же, ограбление — лишь одно из возможных объяснений увиденного вами, есть и множество других. Но если мы не знаем вероятность того, что наблюдаем, мы не можем нормализовать остальные вероятности. Итак, чему же равно P (D)? Это сложный вопрос. В реальных задачах P (D) часто очень трудно вычислить точно. Для всех других компонентов формулы можно собрать настоящие сведения (хотя сейчас мы и взяли значения наугад). Чтобы узнать априорную вероятность P (ограбление), можно посмотреть на данные о преступности и зафиксировать вероятность, с которой в заданный день дом на вашей улице будет ограблен. Мы также теоретически можем исследовать прошлые ограбления и точнее оценить правдоподобие увиденной картины при условии, что произошло ограбление. Но как можно даже примерно оценить P (разбитое окно, открытая входная дверь, пропавший ноутбук)?
Вместо выяснения вероятности наблюдаемых данных можно посчитать вероятность всех прочих событий, объясняющих наблюдаемую картину. Вероятность всех объяснений должна в сумме давать 1, так что потом мы сможем найти P (D). Но в нашей ситуации возможных объяснений неограниченное количество. Без P (D) мы в затруднении. В главах 6 и 7, когда мы считали вероятность, что продавец — мужчина, и вероятность ткнуть в разноцветные кирпичики, мы знали P (D). Это позволяло точно вычислить вероятность, что гипотеза верна при условии наблюдаемых данных. Без P (D) нам не посчитать P (ограбление | разбитое окно, открытая входная дверь, пропавший ноутбук). Но не все потеряно.
К счастью, иногда не нужно знать P (D), поскольку достаточно просто сравнить гипотезы. В нашем примере мы сравним вероятность ограбления и других возможных объяснений. Это можно сделать, рассмотрев отношение ненормализованных апостериорных вероятностей. Так как P (D) не меняется, ее можно сократить.
Итак, вместо вычисления P (D) мы посвятим остаток главы формулировке альтернативной гипотезы, вычислению ее апостериорной вероятности и сравнению апостериорных вероятностей двух гипотез. Мы не можем вычислить точную вероятность того, что были ограблены, но по-прежнему, благодаря теореме Байеса, можем поиграть в детективов.
Сформулируем альтернативную гипотезу и сравним с исходной. Новая гипотеза будет состоять из трех событий:
1. Соседский ребенок разбил мячом окно.
2. Вы сами забыли закрыть дверь.
3. Вы забыли ноутбук на работе.
Будем обращаться к этим объяснениям по их номеру, а все их вместе обозначим через H2, то есть P (H2) =P (1, 2, 3). Найдем их правдоподобие и априорную вероятность.
Напомним, что правдоподобие — это вероятность имеющихся данных при условии гипотезы, то есть P (D | H2). Интересно (и логично), что оно окажется равным единице: P (D | H2) = 1.
Если произойдут все события из нашей гипотезы, вы непременно получите разбитое окно, открытую дверь и отсутствующий ноутбук.
Априорная вероятность характеризует возможность того, что произошли все три события. Значит, надо сначала выяснить вероятность каждого из них, а потом воспользоваться правилом произведения. Мы примем, что эти три события независимы. Первая часть нашей гипотезы — соседский ребенок разбил окно мячом. Так часто бывает в фильмах, но в жизни лично я не слышал о таких происшествиях, зато часто слышал про ограбления. Предположим, что попадание мячом в окно в два раза менее вероятно, чем кража.
Вторая часть гипотезы состоит в том, что вы оставили дверь незапертой. Предположим, что это случается раз в месяц, то есть
Наконец, забытый ноутбук. Принести ноутбук на работу и оставить его там может быть обычным делом, но совсем не помнить об этом — случай более редкий. Предположим, что такое происходит раз в год:
Теперь, присвоив вероятности всем событиям гипотезы H2, мы можем вычислить априорную вероятность по правилу произведения:
Как можно видеть, априорная вероятность всех трех событий чрезвычайно мала. Теперь нам надо сравнить апостериорные вероятности гипотез.
Мы знаем, что правдоподобие P (D | H2) равно 1, и если вторая гипотеза верна, мы точно получим имеющуюся картину. Без учета априорной вероятности кажется, что апостериорная вероятность второй гипотезы должна быть гораздо больше первоначальной гипотезы об ограблении (ведь при ней вовсе не обязательно мы будем наблюдать все данные). Теперь посмотрим, как априорная вероятность кардинально меняет ненормализованную апостериорную вероятность:
Теперь надо сравнить наши апостериорные вероятности (а значит, убедительность гипотез), вычислив отношение. И для этого не требуется P (D).
Нам нужно отношение двух апостериорных вероятностей, которое покажет, во сколько раз одна гипотеза правдоподобнее другой. Исходную гипотезу мы обозначим за H1, и отношение будет выглядеть так:
Теперь распишем числитель и знаменатель по теореме Байеса как P (H) ×P (D | H) × 1/P (D):
Заметим, что и числитель, и знаменатель содержат 1/P (D), а значит, мы можем сократить этот множитель, и отношение не изменится. Именно поэтому P (D) не имеет значения при сравнении гипотез. Мы получили отношение ненормализованных апостериорных вероятностей. Так как апостериорная вероятность — мера нашей уверенности в гипотезе, вычисленное отношение говорит нам, насколько лучше объясняет данные H1, чем H2 (и не требует знания P (D)). Сократим P (D) и подставим числа:
Это значит, что H1 объясняет увиденное в 6570 раз лучше, чем H2. Иными словами, наша исходная гипотеза (H1) объясняет данные гораздо лучше, чем альтернативная (H2). Это хорошо согласуется с интуицией — учитывая наблюдаемую картину, ограбление кажется более правдоподобным вариантом.
Хочется строго сформулировать свойства ненормализованной вероятности и в дальнейшем использовать их. Для этого понадобится следующая версия теоремы Байеса:
Ее можно прочитать так: «Апостериорная вероятность — вероятность гипотезы при условии данных — пропорциональна априорной вероятности H, умноженной на вероятность данных при условии H».
Эта форма теоремы Байеса очень полезна, когда нужно сравнить вероятность двух идей, но нет возможности легко узнать P (D). Невозможно найти само по себе значение вероятности для гипотезы, но все еще можно сравнивать гипотезы по теореме Байеса. Сравнение гипотез означает, что мы всегда можем увидеть, во сколько раз одно объяснение лучше, чем другое.
В этой главе мы узнали, как теорема Байеса становится инструментом для моделирования наших представлений о мире с учетом имеющихся данных. Теорема Байеса содержит три важнейших компонента: апостериорную вероятность P (H | D), априорную вероятность P (H) и правдоподобие P (D | H). Вероятность самих данных P (D) в этом списке отсутствует, поскольку не нужна нам в случаях, когда необходимо только сравнить гипотезы.
Попробуйте ответить на эти вопросы, чтобы оценить свое понимание компонентов теоремы Байеса.
1. Как уже говорилось, вы можете не согласиться с нашей оценкой правдоподобия для первой гипотезы. Как это повлияет на меру нашей убежденности в превосходстве H1 над H2?
2. Насколько малой должна быть априорная вероятность ограбления, чтобы гипотезы H1 и H2 при имеющихся данных были равновероятны?