Книга: Байесовская статистика: Star Wars, LEGO, резиновые уточки и многое другое
Назад: 6. Условная вероятность
Дальше: 8. Априорная и апостериорная вероятности и правдоподобие в теореме Байеса

7. Теорема Байеса и Lego

В предыдущей главе мы познакомились с услов­ными вероятностями и пришли к важнейшей из идей теории вероятностей — теореме Байеса, гласящей:

Eqn0057.tif 

Заметим, что по сравнению с главой 6 мы внесли одно маленькое изменение — вместо P (A)P (B | A) написали P (B | A)P (A) — результат не поменялся, но иногда перемена мест множителей упрощает понимание. С помощью теоремы Байеса мы можем «обращать» условные вероятности — зная вероятность P (B | A), вычислять P (A | B). Теорема Байеса лежит в основе статистики потому, что позволяет перейти от вероятности наблюдения при условии неких априорных предположений к мере нашей уверенности в этом предположении при условии наблюдений. Например, зная вероятность чихания при простуде, можно определить вероятность, что вы простужены, если чихнули. Таким образом, мы используем наблюдения для обновления представлений о мире.

В этой главе мы будем использовать Lego для наглядного и конкретного объяснения теоремы Байеса. Возьмем кирпичики и будем задавать вопросы. На рис. 7.1 изображен прямоугольник 6 × 10 — с 60 «выступами», которыми соединяются кирпичики.

07_01.tif 

Рис. 7.1. Прямоугольник 6 × 10 из Lego, выступающий в роли пространства возможных событий

Его можно представить как пространство из 60 возможных взаимоисключающих событий. Например, синие выступы могут представлять 40 студентов (в группе из 60 человек), сдавших экзамен, а красные — 20 студентов, не сдавших его. В прямоугольнике с 60 выступами 40 синих, так что если мы ткнем пальцем в случайное место, то попадем на синий кирпичик с вероятностью

Eqn0058.tif 

Вероятность ткнуть в красный кирпичик:

Eqn0059.tif 

Вероятность ткнуть либо в синий, либо в красный кирпичик ожидаемо равна 1:

P (синий) + P (красный) = 1,

то есть синий и красный кирпичики вместе представляют все множество возможных событий.

Теперь положим сверху желтый кирпичик, представляющий некоторое новое множество — например, студентов, которые готовились всю ночь и не спали. Получится конструкция с рис. 7.2.

07_02.tif 

Рис. 7.2. Положим кирпичик 2 × 3 на прямоугольник 6 × 10

Теперь, если мы ткнем в случайный выступ, вероятность попасть на желтый кирпичик равна

Eqn0060.tif 

Но если сложить P (желтый) + P (синий) + P (красный), мы получим вроде бы невозможный результат, больший 1! Дело, конечно же, в том, что желтый кирпичик лежит поверх красного и синего, так что вероятность ткнуть в желтый кирпичик — условная, зависящая от того, над красной или синей областью мы оказались. Как мы знаем из предыдущей главы, эту условную вероятность можно записать как P (желтый | красный) — вероятность желтого при условии, что мы оказались над красной областью. В примере выше это будет вероятностью, что студент не спал всю ночь при условии, что он не сдал экзамен.

Наглядное представление условных вероятностей

Вернемся к кирпичикам Lego и найдем P (желтый | красный). Рисунок 7.3 поможет в визуализации.

07_03.tif 

Рис. 7.3. Наглядно представляем P (желтый | красный)

Рассмотрим весь процесс нахождения P (желтый | красный) по нашей наглядной модели:

1. Разделим красную и синюю области.

2. Вычислим площадь красной области: 2 × 10 = 20 выступов.

3. Вычислим площадь желтого кусочка над красной областью: 4 выступа.

4. Поделим площадь желтого кусочка на площадь красной области. Получим Eqn0061.tif.

Ура! Мы нашли условную вероятность желтого при условии красного. Прекрасно. Почему бы не обратить эту вероятность, чтобы найти P (красный | желтый)? Проще говоря, если мы знаем, что ткнули в желтый выступ, какова вероятность, что внизу — красная область? Или какова вероятность, что не спавший всю ночь студент провалил экзамен?

Взглянув на рис. 7.3, вы, быть может, уже определили P (красный | желтый), рассуждая так: «Желтых выступов 6, 4 из них над красной областью, так что вероятность ткнуть в желтый над красным 4/6». Если вы это поняли, поздравляем! Вы только что сами пришли к теореме Байеса. Но подкрепим рассуждения вычислениями.

Формулы

Переход от интуитивных представлений к теореме Байеса потребует некоторых усилий. Начнем с того, как вычислить количество желтых выступов (6). Умножим вероятность попасть на желтый выступ на общее количество выступов:

Eqn0062.tif 

Как показать, что 4 из желтых выступов лежат над красной областью? Сначала найдем количество красных выступов (так же, как и желтых):

Eqn0063.tif.

Мы уже вычислили долю красных выступов, покрытых желтым кирпичиком P (желтый | красный). Чтобы найти их количество, умножим эту вероятность на общее количество красных выступов:

Eqn0064.tif.

Наконец, вычислим долю красных выступов, накрытых желтым кирпичиком, от общей площади желтого кирпичика:

Eqn0065.tif 

что согласуется с интуицией. Однако эта формула не похожа на теорему Байеса, имеющую вид

Eqn0066.tif 

Чтобы прийти к ней, произведем подстановки:

Eqn0067.tif,

то есть

Eqn0068.tif.

Сократив общее количество выступов, получим:

Eqn0069.tif 

От наглядных представлений мы пришли к теореме Байеса!

Заключение

Идеи теоремы Байеса интуитивны, но ее формальный вывод не столь очевиден. Преимущество работы с формулами — в выделении логического костяка из интуитивных рассуждений. Мы показали, что наши интуитивные представления разумны, и получили новый мощный инструмент для задач о вероятностях — в том числе более сложных, чем задачи о детальках Lego. В следующей главе мы увидим, как использовать теорему Байеса для обновления представлений на основе данных.

Упражнения

Чтобы убедиться, что вы хорошо понимаете использование теоремы Байеса в задачах об условных вероятностях, попробуйте ответить на эти вопросы.

1. Канзас-Сити, вопреки названию, стоит на границе двух штатов, Миссури и Канзаса. Агломерация Канзас-Сити состоит из 15 округов: 9 в штате Миссури и 6 в Канзасе. В штате Канзас всего 105 округов, в Миссури — 114. Используя теорему Байеса, вычислите вероятность, что человек, переехавший в агломерацию Канзас-Сити, окажется в штате Канзас. Используйте P (Канзас), P (Канзас-Сити) и P (Канзас-Сити | Канзас).

2. В колоде 52 красные и черные карты, в том числе четыре туза: два красных и два черных. Вы вынули из колоды черный туз и перемешали ее. Ваш друг вытянул карту черной масти. Какова вероятность, что это туз?

Назад: 6. Условная вероятность
Дальше: 8. Априорная и апостериорная вероятности и правдоподобие в теореме Байеса