Самое быстрое в мире введение в теорию вероятности
В двух следующих разделах я буду применять выражение р() для обозначения вероятности. Например:
р(следующий фильм Майкла Бэя будет ужасным)= 1
р(Джон Форман когда-нибудь станет вегетарианцем)= 0,0000001
Извините, очень маловероятно, что я когда-либо откажусь от копченых колбасок – единственной вещи, которая мне нравится в Алабаме!
Суммируем условную вероятность
Ну что ж, предыдущие два примера были просто вероятностями, но в этой главе мы будем работать в основном с условной вероятностью. Вот как она выглядит:
р(Джон Форман станет вегетарианцем | вы заплатите ему миллиард долларов)= 1
Вероятность того, что я когда-нибудь стану вегетарианцем очень низка. Однако если вы дадите мне за это превращение миллиард долларов, она немедленно возрастет до 100 %. Этот вертикальный значок «|» используется для отделения события от условий в выражении.
Как совместить вероятность перехода на вегетарианство в 0,0000001 с какой-то условной вероятностью? С помощью закона о полной вероятности. Вот как он работает: вероятность того, что я стану вегетарианцем, равна сумме вероятностей того, что я стану вегетарианцем при всех возможных условиях, умноженной на вероятность того, что они произойдут:
р(вегетарианство) = р(миллиард долларов) × (вегетарианство | миллиард долларов) + р(не миллиард долларов) × (вегетарианство | не миллиард долларов) = 0,0000001
Полная вероятность – это взвешенная сумма всех условных вероятностей, умноженная на вероятность этих условий. А вероятность условия, что вы дадите мне миллиард долларов, равна нулю (практически уверен в справедливости утверждения). Это означает, что р(не миллиард долларов) = 1, и у нас получается
р(вегетарианство) = 0×р(вегетарианство | миллиард долларов) + р(вегетарианство | не миллиард долларов) = 0,0000001
р(вегетарианство) = 0×1 + 1×0,0000001 = 0,0000001
Совместная вероятность, цепное правило и независимость
Есть еще одно понятие теории вероятности – совместная вероятность, которая есть не что иное, как хитрый способ сказать «и». Вспомните свои вступительные экзамены.
Вот вероятность того, что сегодня на обед я съем тако белл:
р(Джон ест тако белл) = 0,2
Обычно я делаю это раз в неделю. А вот вероятность того, я буду слушать сегодня какую-нибудь попсовенькую электронную музычку:
р(Джон слушает электронную музычку) = 0,8
Это очень вероятно.
А каковы же шансы того, что я буду делать сегодня и то и другое? Это называется совместной вероятностью и записывается следующим образом:
р(Джон ест тако белл, Джон слушает электронную музычку)
Просто разделяем два события запятой.
Эти события, в нашем случае, независимы. Это значит, что прослушивание электронной музыки никак не связано с поеданием тако. Зная об их независимости друг от друга, можно просто перемножить эти две вероятности и получить совместную вероятность следующим образом:
р(Джон ест тако белл, Джон слушает электронную музычку) = 0,2 × 0,8 = 0,16
Это называется одним из правил умножения вероятностей. Отметим, что совместная вероятность всегда ниже вероятности происхождения какого-либо одного из событий, что весьма логично. Выигрыш в лотерею в тот день, когда вас ударит молнией, гораздо менее вероятен, чем любое из этих событий в отдельности.
Один из способов увидеть эту зависимость – цепное правило вероятности, которое выглядит так:
р(Джон ест тако белл, Джон слушает электронную музычку) = р(Джон ест тако белл) × р(Джон слушает электронную музычку | Джон ест тако белл)
Совместная вероятность – это вероятность происхождения одного события, умноженная на вероятность происхождения второго при условии, что произойдет первое. Но так как эти два события не зависят друг от друга, условие не имеет значения. Я буду слушать попсовое техно в том же объеме, несмотря на обед:
р(Джон слушает электронную музычку | Джон ест тако белл) = р(Джон слушает электронную музычку)
Это сводит цепное правило к простому:
р(Джон ест тако белл, Джон слушает электронную музычку) = р(Джон ест тако белл) × (Джон слушает электронную музычку) = 0,16
Что же с зависимыми событиями?
Я введу новую вероятность – вероятность того, что сегодня я буду слушать Depeche Mode:
р(Джон слушает Depeche Mode) = 0,3
Есть 30 %-ная вероятность, что я запилю немного DM сегодня. Не судите меня. Теперь у меня есть два события, зависящие друг от друга: прослушивание электроники или DM. Почему? Да потому что DM и есть попсовое техно! А это значит:
р(Джон слушает электронную музычку | Джон слушает DM) = 1
Если я слушаю Depeche Mode сегодня, то есть 100 %-ная вероятность, что я слушаю попсовое техно. Это тавтология. Так как Depeche Mode достаточно попсовый, вероятность того, что я слушаю попсовое техно при том, что я слушаю Depeche Mode, равна 1.
А это значит следующее: если я хочу вычислить совместную вероятность этих событий, я не просто их перемножаю. Следуя цепному правилу,
р(Джон слушает электронную музычку, Джон слушает DM) = р(Джон слушает DM) × (Джон слушает электронную музычку | Джон слушает DM) = 0,3 × 1 = 0,3
Правило Байеса
Так как я определил Depeche Mode как попсовое техно, вероятность того, что я слушаю попсовое техно при том, что я слушаю Depeche Mode, равна 1. Но нет ли других способов? У нас еще нет вероятности для этого утверждения:
р(Джон слушает Depeche Mode | Джон слушает попсовое техно)
В конце концов, существуют же другие популярные группы, которые играют техно. Может, Kraftwerk? Или новый альбом Daft Punk?
Один милый джентльмен по фамилии Байес придумал правило:
р(попса) × р(DM | попса) = р(DM) × р(попса | DM)
Это правило позволяет вам рассчитать отношение условного события к вероятности, если событие и условие меняются местами.
Перейдя к сокращенным названиям переменных, мы видим, что можно изолировать вероятность, которая нам неизвестна (вероятность того, что я слушаю DM при том, что я слушаю попсовое техно):
р(DM | попса) = р(DM) × р(попса | DM) / р(попса)
Эта формула – самый распространенный вид правила Байеса. В общем-то это способ крутить условными вероятностями. Когда вам известна условная вероятность только с одной стороны, а также полные вероятности события и условия, вы можете легко все перевернуть.
Подставляя значения, получим:
р(DM | попса) = 0,3 × 1 / 0,8 = 0,375
Я буквально имею 30 %-ный шанс слушать Depeche Mode в любой день. Так или иначе, если я знаю, что собираюсь послушать какое-нибудь попсовое техно сегодня, шансы, что это будет Depeche Mode подскакивают до 37,5 %! Отлично.