Пока мы обсуждали только вероятности независимых событий. События независимы, если исход одного не влияет на исход второго. Например, выпадение орла при броске монеты никак не влияет на то, выпадет ли шестерка на кубике. Подсчет вероятностей независимых событий гораздо проще, чем зависимых, но предположение о независимости часто не отражает реального положения дел. Например, вероятности того, что не прозвенит будильник, и того, что вы не опоздаете на работу, независимыми не являются. При несработавшем будильнике ваши шансы опоздать гораздо больше.
В этой главе вы научитесь обращаться с условными вероятностями — зависящими от исхода некоторых событий. Вы также познакомитесь с одним из важнейших приложений условной вероятности — теоремой Байеса.
Наш первый пример условной вероятности будет посвящен прививкам от гриппа и их побочным эффектам. Обычно пациент получает информацию о возможных побочных эффектах — одним из них является повышенный риск синдрома Гийена — Барре (СГБ), очень редкого и опасного для жизни состояния, при котором иммунная система атакует собственные нервные клетки. По данным Центра по контролю и профилактике заболеваний США (Centers for Disease Control and Prevention, CDC), СГБ возникает в год у двух из 100 000 жителей. Мы можем представить эту вероятность так:
Обычно повышение риска СГБ из-за прививки ничтожно мало. Однако в 2010 году, во время вспышки свиного гриппа, вероятность возникновения СГБ после прививки возросла до 3/100 000. Таким образом, вероятность развития СГБ стала ощутимо зависеть от наличия прививки — пример условной вероятности. Условные вероятности записываются так: P (A | B), вероятность A при условии B. Можно математически записать вероятность развития СГБ как
В переводе на человеческий язык: «Вероятность развития СГБ, если вам сделали прививку от гриппа, 3 из 100 000».
Условные вероятности — важнейший инструмент статистики, они позволяют показать, как наши представления изменяются на основании поступившей информации. Если вы не знаете, прививался ли некто от гриппа, можно сказать, что вероятность развития у него синдрома Гийена — Барре 2/100 000 (это вероятность для произвольно выбранного человека). Но если дело происходит в 2010 году и вы знаете, что человек делал прививку, то, как вам известно, вероятность составляет уже 3/100 000. Рассмотрим отношение этих вероятностей:
Так что, если вы прививались от гриппа в 2010-м, ваш риск синдрома Гийена — Барре, скорее всего, на 50 % выше, чем у случайного человека. К счастью, он все равно очень низок — если нас волнует индивидуальный риск. Но если мы посмотрим на все население, то среди привитых будет на 50 % больше людей с СГБ, чем в целом по популяции.
Впрочем, есть и другие факторы, повышающие риск СГБ. Например, вероятность выше у мужчин и у пожилых людей. Используя условные вероятности, мы можем учесть всю эту информацию и лучше оценить риск СГБ для индивида.
В качестве второго примера условной вероятности рассмотрим дальтонизм — нарушение цветовосприятия. В популяции 4,25 процента дальтоников, и в большинстве случаев причина в наследственности. Дальтонизм возникает из-за дефекта в одном из генов X-хромосомы. Так как у мужчин одна X-хромосома, а у женщин — две, мужчины в 16 раз чаще страдают дальтонизмом из-за дефектного гена. Так что, хотя в целом по популяции доля дальтоников составляет 4,25 %, среди женщин их всего 0,5 %, а среди мужчин — 8 %. Во всех наших вычислениях мы будем для простоты предполагать, что доля мужчин и женщин в популяции одинакова. Запишем известные нам факты через условные вероятности:
P (дальтоник) = 0,0425;
P (дальтоник | женщина) = 0,005;
P (дальтоник | мужчина) = 0,08.
Выберем из популяции случайного человека — какова вероятность, что это мужчина-дальтоник?
В главе 3 мы научились комбинировать вероятности с использованием И по правилу произведения. Согласно правилу произведения, результат должен был бы составлять:
P (мужчина, дальтоник) =P (мужчина) ×P (дальтоник) =
= 0,5 × 0,0425 = 0,02125.
Но при использовании правила произведения для условных вероятностей возникают проблемы. Это заметно при попытке найти вероятность того, что выбрана женщина-дальтоник:
P (женщина, дальтоник) =P (женщина) ×P (дальтоник) = 0,5 × 0,0425 = 0,02125.
Получились равные вероятности — такого не может быть! Мы знаем, что, хотя вероятности выбрать мужчину и женщину равны, но при выборе женщины вероятность дальтонизма у нее должна быть сильно ниже, чем у мужчины. Формула должна учитывать, что при выборе случайного человека вероятность дальтонизма зависит от того, мужчина это или женщина. Правило произведения из главы 3 работает только для независимых вероятностей. Но принадлежность к тому или иному полу и дальтонизм — события зависимые. Так что на самом деле вероятность выбрать мужчину-дальтоника — это вероятность выбрать мужчину, умноженная на вероятность того, что мужчина — дальтоник. Это можно записать формулой
P (мужчина, дальтоник) =P (мужчина) ×P (дальтоник | мужчина) =
= 0,5 × 0,08 = 0,04.
В общем случае правило произведения меняется так:
P (A, B) =P (A) ×P (B | A).
Такое определение работает и для независимых вероятностей — для них P (B) =P (B | A). Это интуитивно понятно: представьте подбрасывание монетки и кубика, где P (шестерка) равна 1/6 независимо от того, какой стороной выпала монета, так что P (шестерка | орел) также равна 1/6.
Обновится и формулировка правила суммы:
P (A ИЛИ B) =P (A) + P (B) – P (A) ×P (B | A).
Теперь можно работать с условными вероятностями, используя правила вероятностной логики из части I.
Рассуждая об условных вероятностях и зависимости, важно помнить, что на практике связь между двумя событиями часто неясна. Например, рассмотрим вероятности, что человек владеет грузовиком и что он добирается на работу дольше часа. Можно придумать множество причин, по которым одно могло бы зависеть от другого — быть может, владельцы грузовиков чаще живут в сельской местности и далеко не ездят, — но данных, чтобы это подтвердить, у нас нет. Предположение о независимости событий (даже если на самом деле это не так) — обычная практика в статистике. Но иногда, как в нашем примере с мужчинами-дальтониками, такое предположение приводит к грубым ошибкам. Так что, хотя часто и приходится предполагать независимость, помните о том, какой эффект может оказать наличие зависимости!
Один из самых замечательных трюков при работе с условными вероятностями — перемена мест условия и зависящего от него события, то есть использование вероятности P (A | B) для вычисления P (B | A). Допустим, вы пишете продавцу из компании, продающей очки для дальтоников. Очки весьма дороги, и вы опасаетесь, что они бесполезны. Тот отвечает: «Я сам дальтоник и ношу такие очки — они отлично работают!»
Найдем вероятность, что продавец — мужчина. К сожалению, у нас нет о нем никакой информации, кроме идентификационного номера. Что делать? Мы знаем, что P (дальтоник | мужчина) = 0,08, а P (дальтоник | женщина)= 0,005, как определить P (мужчина | дальтоник)? Интуитивно мы понимаем: скорее всего, это мужчина. Но как вычислить вероятность? К счастью, имеющейся информации достаточно. Мы ищем вероятность, что человек, страдающий дальтонизмом, является мужчиной:
P (мужчина | дальтоник) = ?
Главное в байесовской статистике — данные, но данные, кроме известных нам вероятностей, состоят только из одного факта: продавец страдает дальтонизмом.
Рассмотрим теперь из всего населения только дальтоников и определим, какова среди них доля мужчин. Для простоты введем переменную N — численность населения. Как мы уже говорили, надо найти, сколько дальтоников среди населения. Мы знаем P (дальтоник), так что можем записать:
Теперь вычислим количество мужчин-дальтоников. Это легко: мы знаем P (мужчина) и P (мужчина | дальтоник) и можем пользоваться уточненным правилом произведения. Так что мы просто умножаем вероятность на численность населения:
P (мужчина) ×P (мужчина | дальтоник) ×N.
Итак, вероятность того, что продавец — мужчина, если он дальтоник, равна
.
Численность населения N присутствует и в числителе, и в знаменателе, так что ее можно сократить:
.
Теперь мы знаем все:
.
С вероятностью 94,1 % представитель — мужчина.
В формуле выше нет ничего специфического для описания дальтонизма — она обобщается для вероятностей любых событий A и B. Таким образом, мы приходим к главной формуле этой книги, теореме Байеса:
Чтобы понять, чем так важна теорема Байеса, сформулируем задачу в общем виде. У нас есть какие-то представления о мире. При наблюдениях условная вероятность показывает, насколько увиденное вероятно при условии наших представлений:
P (наблюдения | представления).
Предположим, что вы верите в глобальное потепление и ожидаете, что в вашем регионе в течение 10 лет засух будет больше, чем ранее. Ваши представления основаны на том, что происходит глобальное потепление, а ваши наблюдения — это количество засух; пусть их было 5 за 10 лет. Определить вероятность того, что за 10 лет будет 5 засух при условии глобального потепления, весьма сложно. Можно спросить у эксперта-климатолога о вероятности засух в случае глобального потепления. Но пока мы задались только вопросом, какова вероятность наших наблюдений, если мы верим в наличие глобального потепления. На самом деле мы хотим понять, насколько уверенными можно быть в потеплении — при условии имеющихся данных. Теорема Байеса позволяет нам «обратить» P (наблюдения | представления), которую мы узнали у климатолога, и найти вероятность правильности своих представлений при условии имеющихся наблюдений P (представления | наблюдения).
В этом примере теорема Байеса позволит получить из наблюдений за пятью засухами за десятилетие меру нашей уверенности в глобальном потеплении на основании этих данных. Вся необходимая для этого дополнительная информация — обычная вероятность пяти засух за десять лет (которую можно оценить по историческим данным) и мера первоначальной уверенности в наличии потепления. Последняя будет разной для разных людей, но теорема Байеса позволяет оценить, насколько данные изменят наши представления. Например, после сообщения эксперта, что 5 засух за 10 лет очень вероятны при условии глобального потепления, большинство людей начнет чуть более склоняться к его наличию — скептики ли они или такие борцы против изменения климата, как Ал Гор.
Но пусть эксперт отвечает, что 5 засух за 10 лет при условии глобального потепления маловероятны. Ваша первоначальная уверенность в его наличии несколько ослабеет. Именно в соответствии с теоремой Байеса данные изменяют наши исходные представления. Теорема Байеса позволяет нам получить из данных и исходных представлений о мире оценку нашей уверенности в своих представлениях при этих данных. Часто наши представления P (A) в теореме Байеса взяты «с потолка». Мы ожесточенно спорим, уменьшит ли больший контроль продажи оружия число насильственных преступлений, помогает ли тестирование улучшению качества образования и хороша ли очередная реформа здравоохранения. Но мы редко думаем, как нас — или оппонентов — должны переубеждать данные. Теорема Байеса помогает понять, как данные меняют нашу уверенность в той или иной идее.
Далее мы увидим, как сравнивать вероятность предположений, и увидим, как иногда данные не заставляют нас изменить свое мнение (впрочем, кто же из нас не знает это из споров с родственниками!).
В следующей главе мы еще немного поговорим о теореме Байеса. Мы выведем ее снова с помощью кубиков Lego; разберемся, как она работает и как смоделировать наши априорные предположения и их изменение.
В этой главе вы познакомились с условными вероятностями, то есть вероятностями событий, зависящих от других событий. Работать с ними сложнее, чем с вероятностями независимых событий, — понадобилось учесть зависимость в правиле произведения. Зато мы получили теорему Байеса, главный инструмент для понимания, как менять наши представления о мире на основании данных.
Чтобы убедиться, что вы понимаете условные вероятности и теорему Байеса, попробуйте ответить на эти вопросы.
1. Мы хотим использовать теорему Байеса для определения вероятности того, что в 2010 году пациент с синдромом Гийена — Барре был привит от гриппа. Какая информация нам нужна?
2. Какова вероятность того, что случайно выбранный из всей популяции человек — женщина и не дальтоник?
3. Какова вероятность того, что мужчина, привитый от гриппа в 2010 году, будет страдать либо от дальтонизма, либо от синдрома Гийена — Барре?