Книга: Байесовская статистика: Star Wars, LEGO, резиновые уточки и многое другое
Назад: 1. Байесовские рассуждения в обычной жизни
Дальше: 3. Логика неопределенности

2. Измеряем неопределенность

В первой главе мы рассмотрели основные приемы рассуждений, которыми пользуемся интуитивно, и поняли, как данные влияют на наши представления о мире.

Но важный вопрос остался нерешенным: как измерять? В теории вероятностей недостаточно просто слов о «высокой» и «низкой» вероятности — нужны числа. Тогда можно создавать численные модели мира и видеть, насколько данные меняют наши представления, решать, когда поменять мнение, и четко понимать, в чем и насколько мы уверены. В этой главе событиям будут присвоены численные вероятности.

Что такое вероятность?

С идеей вероятности мы встречаемся ежедневно. Мы говорим: «Это маловероятно!», или «Уж наверняка!», или «Не уверен». Вероятность — мера нашей убежденности в чем-либо. В предыдущей главе мы описывали наши убеждения размытыми формулировками. Но чтобы по-настоящему понять, как возникают и меняются наши представления о мире, надо формально определить P (X) как число. Это число покажет, насколько мы убеждены в X. В каком-то смысле вероятность — расширение логики. В логике у нас есть истина и ложь — обе выражают абсолютную убежденность. Мы говорим, что нечто истинно, когда совершенно уверены в этом. Логика полезна во многих задачах, но мы редко считаем нечто стопроцентно истинным или ложным, почти в каждом нашем решении есть момент неуверенности. Вероятности расширяют логику до промежуточных значений между истиной и ложью.

Компьютеры обычно представляют истину единицей, а ложь — нулем. Воспользуемся этой системой для вероятностей. P (X) = 0 означает, что X= ложь, а P (X) = 1, что X= истина. Между нулем и единицей лежит бесконечно много возможных значений. Значение ближе к 0 показывает, что мы скорее считаем нечто ложным, значение ближе к 1 — что мы скорее считаем это истинным. Заметим, что значение 0,5 говорит, что мы совершенно не в состоянии понять, истинно нечто или ложно.

Важная логическая операция — отрицание. «Не истина» — это ложь, «не ложь» — истина. Мы хотим действовать с вероятностями подобным образом, так что вероятности X и «не X» в сумме должны дать единицу:

P (X) + ¬P (X) = 1.

Примечание

Символ ¬ означает «отрицание» или «не».

Таким образом, мы всегда можем найти вероятность отрицания X, вычитая P (X) из единицы. Например, при P (X) = 1 вероятность отрицания равна 0, что согласуется с правилами логики. Аналогично при P (X) = 0 вероятность отрицания 1 — P (X) = 1.

Теперь зададимся вопросом, как же измерить неопределенность. Можно взять произвольные значения: например, 0,95 для очень большой уверенности и 0,05 для очень маленькой. Однако это ненамного лучше размытых слов, с которыми мы имели дело раньше. Нужно вычислять вероятности формальными методами.

Вычисление вероятностей через подсчет исходов

Самый простой способ вычислить вероятность — посчитать возможные исходы. Понадобятся два множества. Первое — это множество всех возможных исходов некоторого события. Когда мы бросаем монетку, возможные исходы — орел и решка. Второе — исходы, которые нам интересны. Например, выпадение «орла» (если мы бросаем монетку один раз, такой исход всего один). Нас может интересовать вероятность выпадения орла при бросании монеты, заражения гриппом, того, что за окном приземлится НЛО. У нас есть два множества исходов, интересные и неинтересные нам, и важно нам только отношение числа интересных исходов к числу всех возможных исходов.

Рассмотрим простой пример с бросанием монетки, где все возможные исходы — это выпадение орла и выпадение решки. Сначала посчитаем все возможные события — их только два. В теории вероятностей большая греческая буква омега (Ω) используется для множества всех событий:

Ω = {орел, решка}.

Нужно узнать вероятность получить орла при одном броске монеты, запишем ее как P (орел). Смотрим на число интересных нам исходов — такой всего один — и делим его на общее число возможных исходов, 2:

Eqn0006.tif.

При одном броске монеты нас интересует один исход из двух возможных, так что вероятность выпадения орла — это

Eqn0007.tif 

Теперь зададимся более сложным вопросом: какова вероятность выпадения хотя бы одного орла, когда мы бросаем две монеты? Список возможных событий становится сложнее — это уже не просто {орел, решка}, а все возможные пары из орла и решки:

Ω = {(орел, орел), (орел, решка), (решка, орел), (решка, решка)}.

Чтобы вычислить вероятность выпадения хотя бы одного орла, посмотрим, какие пары соответствуют этому условию:

{(орел, орел), (орел, решка), (решка, орел)}.

Как можно заметить, множество интересных нам событий содержит 3 элемента, а всего у нас 4 возможные пары. Таким образом, Eqn0008.tif. Это очень простые примеры, но, умея подсчитывать интересующие вас исходы и все исходы, можно быстро и легко вычислять вероятности. Когда примеры усложняются, подсчет исходов вручную становится невозможным. При решении подобных, но более трудных задач задействуют комбинаторику. В главе 4 мы увидим, как использовать комбинаторику для несколько более сложной задачи.

Вычисление вероятности как соотношения предположений

Подсчет событий полезен, когда речь идет о физических объектах, но не для большей части обыденных вопросов о вероятности:

• Какова вероятность, что завтра будет дождь?

• Думаешь, она правда президент компании?

• Это НЛО?!

Почти каждый день вы принимаете решения, основываясь на вероятности, но если вас спросят: «Насколько вероятно, что вы не опоздаете на поезд?», — вы не сможете посчитать ее описанным только что способом.

Таким образом, нужен другой подход к вероятности, который позволит рассуждать о более абстрактных задачах. Представьте, что вы болтаете с другом, и он спрашивает, слышали ли вы об эффекте Манделы. Вы не слышали, и друг рассказывает: «Это такой странный эффект ложных воспоминаний. Например, множество людей вспоминало, что Нельсон Мандела умер в тюрьме в 1980-х. Но на самом деле он был освобожден, стал президентом ЮАР и умер только в 2013-м!» Вы смотрите на друга скептически и отвечаете: «Ну, это какая-то диванная психология из интернета. Вряд ли кто-то всерьез вспоминал о смерти Манделы. Готов спорить, об этом даже нет статьи в Википедии».

Итак, вы хотите измерить P (в англоязычной Википедии нет статьи об эффекте Манделы). Предположим, что сотовая связь не ловит, и быстро это не проверить. Вы уверены, что статьи нет, и хотите присвоить этому предположению высокую вероятность. Но надо присвоить вероятности численное значение от 0 до 1, с чего же начать?

Вы решаете заключить пари и говорите другу: «Это наверняка выдумка. Давай так: если статьи об эффекте Манделы нет, ты отдаешь мне пять долларов, если статья есть — я тебе 100 долларов!» Пари — способ на практике выразить нашу убежденность в чем-либо. Вы уверены, что существование статьи настолько маловероятно, что готовы отдать другу 100 долларов, если ошиблись, и получить всего 5 долларов за свою правоту. И теперь мы можем начать оценивать вероятность вашего предположения, что статьи про эффект Манделы в Википедии нет.

Использование ставок для определения вероятности

Гипотеза вашего друга состоит в том, что об эффекте Манделы есть статья. А у вас есть альтернативная гипотеза Hстатьи нет.

Мы еще не знаем конкретных вероятностей, но ваша ставка показывает сильную уверенность в своей гипотезе. Ставки часто используют как показатель уверенности, рассматривая как отношение суммы, которую вы готовы заплатить за ошибку, к той, которую вы получите за верный прогноз. Например, пусть ставки на лошадь на скачках — 12 к 1. Это означает, что, поставив 1 доллар, вы получите от букмекера 12, если лошадь выиграет. Ставки часто произносят как «m к n», но можно смотреть на них просто как на дробь: m/n.

Между ставками и вероятностями существует прямая связь.

Мы можем записать ставки в вашем пари: «100 к 5». Как извлечь отсюда вероятность?

Ваша ставка показывает, насколько больше ваша уверенность в том, что статьи нет, чем в том, что она есть. Запишем это как отношение вашей уверенности в отсутствии статьи, P (Hнет статьи) к уверенности друга, что статья есть, P (Hстатья есть):

Eqn0009.tif 

Из отношения этих двух гипотез мы видим, что ваша убежденность в отсутствии статьи в 20 раз больше, чем в гипотезе друга. Можно использовать это для вычисления точной вероятности — понадобится лишь немного алгебры.

Вычисление вероятности

Запишем уравнение, где выразим то, что хотим узнать — вероятность вашей гипотезы:

P (Hстатьи нет) = 20 ×P (Hстатья есть)

(читается как «Вероятность того, что статьи нет, в 20 раз больше, чем того, что статья есть»).

Но возможностей всего две: в Википедии либо есть статья про эффект Манделы, либо нет. Наши две гипотезы покрывают все возможности, так что вероятность наличия статьи — это 1 минус вероятность ее отсутствия, и можно заменить P (Hстатья есть) на ее выражение через P (Hстатьи нет):

P (Hстатьи нет) = 20 × (1 – P (Hстатья есть)).

Раскроем скобки в выражении 20 × (1 — P (Hстатьи нет) и получим:

P (Hстатьи нет) = 20 – 20  ×P (Hстатьи нет).

Мы можем избавиться от P (Hстатьи нет) в правой части уравнения, прибавив 20 ×P (Hстатьи нет) к обеим частям. P (Hстатьи нет) остается только в левой части:

21 ×P (Hстатьи нет) = 20.

Поделив обе части на 21, приходим к:

Eqn0010.tif 

Получается прекрасное точное численное значение между 0 и 1, выра­жающее вашу уверенность в гипотезе, что статьи об эффекте Манделы нет. Можно обобщить этот способ преобразования ставок в вероятности так:

Eqn0011.tif 

где O — ставка (от «odd» — ставка).

Столкнувшись на практике с каким-то абстрактным представлением, спрашивайте себя, сколько вы бы поставили на его верность. Вы наверняка согласились бы на ставку миллиард к одному на то, что завтра взойдет солнце, но не на выигрыш любимой бейсбольной команды. В любом случае можно присвоить этим событиям вероятности, пользуясь только что описанным способом.

Измеряем уверенность при бросании монеты

Итак, у нас есть способ определить вероятности абстрактных идей с использованием ставок. Но настоящей проверкой метода станет то, сработает ли он с броском монеты, про который мы все знаем, посчитав исходы. Зададим себе вопрос: «Насколько я уверен, что при следующем броске выпадет орел?» Теперь мы говорим не о P (орел), но о гипотезе P (Hорел). Как и прежде, нужна альтернативная гипотеза, с которой мы сравним нашу. Можно сказать, что альтернативная гипотеза — «выпадет не орел», но чаще мы скажем проще: «Выпадет решка». Важно, что по сути это одно и то же:

Hрешка=H¬орел, и P (Hрешка) = 1 — P (Hорел).

Теперь мы смотрим на отношение

Eqn0012.tif 

Выражение читается как «Насколько сильнее я уверен в выпадении орла, чем в выпадении решки?» Но ни один из исходов не выглядит предпочтительнее, так что единственная разумная ставка — 1 к 1. Конечно, можно использовать и другие равные друг другу значения: 2 к 2, 5 к 5 или 10 к 10. Отношение всегда одно:

Eqn0013.tif 

Учитывая, что отношение всегда одно и то же, мы просто повторяем способ, которым считали вероятность отсутствия статьи об эффекте Манделы. Мы знаем, что в сумме вероятности орла и решки дают 1 и отношение этих вероятностей — тоже 1. Итак, вероятности описываются двумя уравнениями:

P (Hорел) +P (Hрешка) = 1 и Eqn0014.tif

Повторив весь процесс рассуждений про эффект Манделы, вы найдете, что единственное возможное значение для P (Hорел) будет равно 1/2. Мы пришли к тому же результату, что и при подсчете исходов, поэтому такой метод вычисления вероятностей как меры уверенности достаточно надежен!

Если есть два способа вычислять вероятности, то разумно спросить, когда какой их них стоит использовать. К счастью, раз они эквивалентны, можно выбирать тот, который проще применить к имеющейся задаче.

Заключение

В этой главе мы рассмотрели два взгляда на вероятность: вероятность исходов и вероятность как мера уверенности. Мы определили вероятность как отношение числа интересных нам исходов к общему числу исходов. Это самое популярное определение вероятности, но его трудно применить к представлениям о мире: для большинства повседневных задач нет четко определенного набора исходов, которым легко присвоить числовые значения. Поэтому, чтобы оценить вероятность наших убеждений, следует оценить, насколько сильнее мы уверены в одной гипотезе, чем в другой.

Хорошей проверкой будет готовность сделать ставки на свои гипотезы. Например, вы поспорили с другом и платите ему 1000 долларов за доказательство существования НЛО, а он вам — всего один доллар за доказательство, что НЛО не существует. Вы фактически сообщаете, что в 1000 раз более уверены в том, что НЛО не существует, чем в обратном. Вооружившись этим методом, можно вычислять вероятности в самых разных ситуациях. В следующей главе я расскажу, как применять основные логические операции И и ИЛИ к вероятностям. Но прежде чем двигаться дальше, попробуйте попрактиковаться.

Упражнения

Чтобы убедиться, что вы понимаете, как присвоить вероятностям значения от 0 до 1, попробуйте ответить на эти вопросы.

1. Какова вероятность бросить два шестигранных кубика и получить в сумме больше 7?

2. Какова вероятность бросить три шестигранных кубика и получить в сумме больше 7?

3. Играют команды «Янки» и «Ред Сокс». Вы — преданный фанат «соксов» и заключаете с другом пари на их выигрыш. Если «Сокс» проиграет, вы платите другу 30 долларов, если выиграет — друг платит вам 5 долларов. Какую вероятность вы присвоите гипотезе, что выиграет «Ред Сокс»?

В русскоязычном сегменте Википедии такая статья есть: https://ru.wikipedia.org/wiki/Эффект_Манделы. В англоязычном сегменте эффект Манделы упоминается в статье False memory, https://en.wikipedia.org/wiki/False_memory.Примеч. ред.

Назад: 1. Байесовские рассуждения в обычной жизни
Дальше: 3. Логика неопределенности