В этой главе на основе тех же идей, что стоят за биномиальным распределением из прошлой главы, мы вводим новое распределение — бета-распределение. Оно используется для оценки вероятности события, когда вы уже пронаблюдали некоторое количество испытаний и успешных исходов. Например, вы наблюдали 100 бросков монетки, из них 40 раз выпал орел — для оценки вероятности выпадения орла вы будете использовать бета-распределение.
Изучая бета-распределение, мы также обсудим разницу между теорией вероятностей и статистикой. В специализированных книгах вероятности событий часто явно заданы. В реальности так бывает редко. Но мы используем имеющиеся данные для оценки вероятностей, и поможет нам в этом статистика, которая позволяет давать оценки вероятностей по данным.
Представим такую ситуацию. Однажды вы заходите в магазин диковинок. Владелец любезно приветствует вас и, посмотрев, как вы слоняетесь по магазину, спрашивает, ищете ли вы что-то конкретное. Вы отвечаете, что хотите посмотреть на самую странную вещь в магазине. Он улыбается и вытаскивает черную коробочку размером с кубик Рубика, но невозможно тяжелую. Вы заинтересованно спрашиваете, что это. Владелец указывает на прорези сверху и снизу и говорит: «Бросьте 25-центовую монету в верхнее отверстие — и снизу могут появиться две!» Решив попробовать, вы достаете монету из кармана, бросаете в коробочку, но ничего не происходит. Владелец замечает: «А иногда она просто съедает монетку! Коробочка у меня давно, но она никогда не оставалась без монеток и никогда не была заполнена так, чтобы монета не влезала». Вы в замешательстве, но, решив блеснуть свежими знаниями по теории вероятностей, спрашиваете: «А какова вероятность получить две монетки?» Владелец загадочно отвечает: «Не знаю. Это черный ящик, и инструкции к нему нет. Я знаю только, как он себя ведет. Иногда дает две монетки, а иногда съедает вашу».
Хотя задача с загадочной коробкой весьма необычна, на самом деле это чрезвычайно распространенный тип вероятностной задачи. До этого, кроме первой главы, мы знали вероятности всех возможных событий или хотя бы свою готовность поставить на них. В реальности мы почти никогда не знаем точной вероятности событий, у нас есть только наблюдения и данные. В этом и есть основное различие между теорией вероятностей и статистикой. В теории вероятностей мы точно знаем, какова вероятность всех событий, и интересуемся, насколько вероятно получить тот или иной результат наблюдений. Например, мы можем знать, что вероятность выкинуть орла при броске монеты равна 1/2, и мы можем интересоваться вероятностью получить ровно семь орлов за 20 бросков.
В статистике мы решаем обратную задачу: если вы наблюдаете, что за 20 бросков выпало семь орлов, какова вероятность выпадения орла при одном броске? Как можно видеть, в этом примере вероятности неизвестны. Статистика в каком-то смысле — теория вероятностей наоборот. Задача нахождения вероятностей по данным называется статистическим выводом и лежит в основе статистики.
Главное в статистическом выводе — данные. Пока мы только один раз испробовали странную коробочку: бросили монетку и не получили ничего. В этот момент мы знаем только, что можем потерять деньги. Но владелец говорит, что мы можем и выиграть, однако уверенности в этом пока нет.
Мы хотим оценить вероятность того, что загадочная коробочка выдаст две монеты. Для этого надо провести еще несколько испытаний и посмотреть, насколько часто мы будем выигрывать. Владелец магазина также заинтересован и готов внести десять долларов 25-центовыми монетами — 40 монет, при условии, что вы отдадите ему выигрыш. Вы бросаете монетку, и, ура, выскакивают две! Теперь у нас есть результат двух испытаний: действительно, иногда коробочка выдает дополнительную монету, а иногда съедает брошенную. Можно наивно предположить, что если вы один раз проиграли и один раз выиграли, то P (две монеты) = 1/2. Но данных слишком мало, чтобы понять, насколько часто коробочка выдает лишнюю монету.
Желая собрать побольше данных, вы израсходовали все 40 монет. В итоге, с учетом первого опыта, получилось следующее:
14 выигрышей;
27 проигрышей.
Быть может, вам хочется теперь изменить мнение с P (две монеты) = 1/2 на P (две монеты) = 14/41. Но означают ли новые данные, что первоначальная догадка не может быть верной?
Чтобы решить эту задачу, рассмотрим две возможные вероятности — наши гипотезы о том, как часто коробочка возвращает две монеты:
P (две монеты) = 1/2, P (две монеты) = 14/41.
Присвоим обозначение каждой гипотезе:
H1 — это P (две монеты) = 1/2;
H2 — это P (две монеты) = 14/41.
Большинство людей интуитивно скажут, что гипотеза H2 вероятнее, так как более точно соответствует наблюдениям. Но это надо доказать математически! Рассмотрим задачу в контексте того, насколько хорошо каждая гипотеза объясняет наблюдения, а проще говоря, «насколько вероятно то, что мы наблюдаем, при H1? А при H2? Оказывается, мы можем легко вычислить это, применив биномиальное распределение из главы 4. Мы знаем, что n= 41, k= 14, и примем пока, что p соответствует H1 или H2. Обозначим наши данные через D. Подставив числа в формулу биномиального распределения (напомним, что ее можно найти в главе 4), мы получим такие результаты:
Иными словами, если верна гипотеза H1 и вероятность получить две монеты равна 1/2, то вероятность 14 случаев получения двух монет за 41 попытку составляет 0,016.
Но если верна гипотеза H2 и вероятность получить две монеты равна 14/41, то вероятность такого же результата наблюдений составляет 0,130.
Таким образом, при наших данных (14 случаев получения двух монет за 41 попытку) H2 почти в 10 раз вероятнее, чем H1. Но также мы показали, что обе гипотезы возможны, и, конечно же, можно выдвинуть много других. Например, можно выдвинуть гипотезу H3P (две монеты) = 15/42. В поисках закономерности мы можем проверять каждую вероятность от 0,1 до 0,9 с шагом 0,1, вычисляя вероятность наблюдаемых данных для каждого распределения, и, исходя из этого, строить гипотезы. Рисунок 5.1 показывает все такие значения вероятности.
Все возможные гипотезы рассмотреть нельзя — их бесконечно много. Но можно проверить больше распределений и получить больше информации. Повторим эксперимент, проверяя все вероятности от 0,01 до 0,99 с шагом всего 0,01. И получим результаты с рис. 5.2.
Хотя мы и не можем проверить все возможные гипотезы, явно прослеживается закономерность: что-то похожее на распределения вероятностей для поведения черной коробочки. Это ценная информация, и легко увидеть, где вероятность выше. Но наша цель — оценить уверенность во всех возможных гипотезах (распределение вероятностей на множестве гипотез). У нашего подхода две проблемы. Во-первых, гипотез все же бесконечно много, и каким бы маленьким мы ни делали шаг, всех возможностей не перебрать (неохваченных останется бесконечно много). Это не столь важно на практике, нас часто не заботят значения вроде 0,000001 или 0,0000011, но все же хотелось бы точнее представлять весь спектр гипотез. Посмотрев на график, вы заметите вторую, более важную проблему: по крайней мере
Рис. 5.1. Диаграмма гипотез о шансах получить две монеты
Рис. 5.2. Проверив больше гипотез, мы видим закономерность
10 точек лежат выше 0,1, а ведь нам не хватает еще бесконечного множества точек! Таким образом, наши вероятности в сумме не дают 1! Но правила гласят, что вероятности всех гипотез должны в сумме давать 1. Если это не так, часть гипотез не учтена, либо, если сумма больше 1, нарушается правило о том, что вероятность лежит между 0 и 1. Сумма должна быть равна 1 даже при бесконечном числе гипотез! И тут на сцену вступает бета-распределение.
Справиться с этими задачами нам поможет бета-распределение. В отличие от биномиального распределения, распадающегося на дискретный набор значений, бета-распределение определено на сплошном интервале, что позволяет представить все бесконечное множество гипотез.
Определим бета-распределение через плотность вероятности (probability density function, PDF), очень похожую на функцию вероятности для биномиального распределения, но определенную на сплошном интервале. Плотность вероятности бета-распределения выглядит так:
Формула выглядит пугающе в отличие от формулы биномиального распределения! Но на самом деле различаются они не столь сильно. Не будем выводить ее с нуля, как функцию вероятности биномиального распределения, но что происходит, разберемся.
Посмотрим на параметры: p, α (строчная греческая буква «альфа») и β (строчная греческая буква «бета»).
• P обозначает вероятность события, что соответствует разным гипотезам о вероятности выигрыша у черного ящичка.
• α показывает, сколько раз произошло интересующее нас событие, например получение двух монет.
• β — сколько раз оно не произошло (в нашем примере — сколько раз коробочка съела монету).
Общее число испытаний равно α + β. Здесь видна разница с биномиальным распределением, где имеется k интересных нам исходов и конечное число n испытаний.
Числитель плотности распределения выглядит знакомым — он почти совпадает с функцией вероятности биномиального распределения, которая выглядит как
Но в плотности распределения на месте pk(1 – p)n – k стоит pα – 1(1 – p)β – 1, мы вычитаем 1 из показателей степени. В знаменателе стоит другая функция, бета-функция (заметьте, что ее обозначение начинается со строчной буквы), в честь которой и названо бета-распределение. Мы вычитаем 1 из показателя степени и делим на бета-функцию для нормализации (то есть для того, чтобы распределение суммировалось в 1). Бета-функция — это интеграл от 0 до 1 от pα – 1(1 – p)β – 1. Мы поговорим об интегралах дальше, а сейчас можно думать о нем как о сумме всех возможных значений pα – 1(1 – p)β – 1 при p, принимающем значения от 0 до 1. Обсуждение, почему вычитание единицы из показателя и деление на бета-функцию приводит к нормализации, сильно выходит за пределы этой главы, но сейчас достаточно знать, что они позволяют всем значениям суммироваться в 1 и, таким образом, дают нам разумное определение вероятности. В итоге получается функция, описывающая вероятности всех возможных гипотез о шансах получить две монеты — при условии, что мы наблюдали α примеров одного исхода и β примеров другого. Помните, что к бета-распределению мы пришли, сравнив, насколько хорошо разные биномиальные распределения, каждое со своей собственной вероятностью p, описывают наши данные. Другими словами, бета-распределение показывает, насколько хорошо все возможные биномиальные распределения описывают наблюдаемые данные.
Подставив значения наших данных о черном ящичке и изобразив бета-распределение (как на рис. 5.3), мы видим, что это просто гладкая версия рис. 5.2. Так выглядит плотность вероятности Beta(14, 27).
Как видите, большие значения плотности соответствуют значениям p, меньшим 0,5, — что ожидаемо, ведь мы получали две монеты меньше чем в половине случаев. Видно, что вероятность получить две монеты хотя бы в половине случаев очень мала, поэтому стоить заканчивать пихать монеты в коробочку. Не успев потратить слишком много, мы все же выяснили, что потерять деньги вероятнее, чем заработать. Мы смотрим на график, видим распределение для наших гипотез и можем точно ответить, насколько уверены, что шансы получить две монеты меньше 0,5, воспользовавшись азами матанализа и языком R.
Рис. 5.3. Бета-распределение для данных о черной коробочке
Бета-распределение принципиально отличается от биномиального: в последнем мы ищем распределение k, число интересующих нас исходов, которое легко посчитать. Однако в случае бета-распределения мы имеем дело с распределением параметра p, который может принимать бесконечно много значений. Это приводит к следующей задаче, знакомой тем, кто уже изучал матанализ (но не пугайтесь, если у вас не было такого опыта!). В примере с α= 14 и β= 27 мы хотим узнать, какова вероятность, что шансы получить две монеты равны 1/2. В случае биномиального распределения число возможных исходов конечно, и легко найти вероятность одного конкретного исхода. Для непрерывного распределения все сложнее. Мы знаем основное правило — сумма всех значений вероятности должна быть равной 1, но каждое отдельное значение бесконечно мало — вероятность фактически равна 0. Для тех, кто не знаком с непрерывными функциями, это все прозвучало странно, так что понадобится небольшое пояснение. Пусть нечто составлено из бесконечного числа кусочков — представьте, например, большую шоколадку весом в один фунт (453 г). Вы делите ее на два куска — каждый весит по 1/2 фунта. Если кусков будет 10, каждый будет весить 1/10 фунта. Чем больше кусочков, тем меньше каждый — вы их уже и не увидите. Когда число кусочков стремится к бесконечности, каждый из них фактически исчезает!
Кусочки шоколада исчезли, но общая масса осталась. Даже поделив плитку на бесконечное число кусочков, мы можем сложить веса всех кусочков в одной половине шоколадки. Аналогично, рассуждая о вероятности для непрерывного распределения, по-прежнему можно суммировать значения из некоторого интервала. Но разве мы не получим 0, когда каждое конкретное значение равно 0? Здесь и возникает интегральное исчисление: способ суммировать бесконечно маленькие значения называется интегрированием. Желая узнать, меньше ли вероятность получить две монеты, чем 0,5 (принимает ли она значение от 0 до 0,5), мы вычисляем
.
Пояснение для тех, кто не знаком с матанализом: вытянутая S — аналог значка ∑, применяющегося не к дискретным, а к непрерывным функциям. Таким образом, мы просто хотим просуммировать все «кусочки» функции (в приложении Б можно найти краткое изложение основных постулатов матанализа). Не пугайтесь формул — считать все равно будет R. В нем есть функция dbeta() — плотность вероятности для бета-распределения. Она принимает три аргумента, соответствующие p, α и β. Мы также воспользуемся функцией integrate() для интегрирования. Так мы посчитаем вероятность того, что шансы получить две монеты меньше 0,5:
> integrate(function(p) dbeta(p, 14, 27),0, 0,5)
Результат:
0,9807613 with absolute error < 5,9e-06
Сообщение указывает максимальное значение допущенной ошибки — ведь компьютеры не умеют вычислять интегралы с идеальной точностью, но ошибки обычно так малы, что беспокоиться не о чем. Таким образом, при наших данных с вероятностью 0,98 истинная вероятность получить две монеты меньше 0,5. Так что продолжать бросать монеты почти наверняка невыгодно.
В реальной жизни мы практически никогда не знаем настоящих вероятностей событий. Поэтому бета-распределения — один из главных инструментов для понимания данных. В игре «гача» из главы 4 вероятность вытянуть интересную карту была известна. Но на самом деле разработчики игр почти никогда не дают игрокам такой информации — по многим причинам (например, чтобы игроки не поняли, насколько маловероятно вытянуть нужную карту). Обратимся к новой игре — «Бойцы-фреквентисты»! Снова с картами знаменитых статистиков. Теперь мы охотимся за картой Брэдли Эфрона.
Мы не знаем, каковы наши шансы, но хотим вытянуть эту карту, а лучше и не одну. Потратив немало денег и вытянув 1200 карт, мы получаем лишь 5 карт с Эфроном. Наш друг тоже хотел бы сыграть, но готов тратить деньги только в том случае, если с вероятностью более 0,7 шансы вытянуть Эфрона больше 0,005. Поэтому он просит нас посчитать, стоит ли ему играть. Данные говорят, что из 1200 карт только 5 были с Эфроном — поэтому мы обращаемся к распределению Beta(5, 1195), изображенному на рис. 5.4 (как мы помним, α + β — это общее число вытянутых карт).
На графике видим, что практически вся плотность вероятности сосредоточена при p, меньших 0,01. Надо найти, сколько приходится на интервал от 0,005 — как и раньше, для этого достаточно проинтегрировать в R:
integrate(function(x) dbeta(x,5,1195), 0,005, 1)
0,29
Таким образом, вероятность того, что шансы вытянуть карту с Брэдли Эфроном не меньше 0,005 — при наших данных, — всего 0,29. Друг же согласен играть лишь при вероятности не менее 0,7, так что, по нашим данным, ему не стоит и пытаться.
Рис. 5.4. Бета-распределение — шансы получить карту с Брэдли Эфроном при наших данных
В этой главе мы познакомились с бета-распределением, тесно связанным с биномиальным и при этом во многом не похожем на него. Мы пришли к бета-распределению, наблюдая, насколько хорошо все большее и большее число биномиальных распределений объясняют имеющиеся данные. Чтобы описать бесконечное число возможных гипотез, требуется непрерывное распределение. Бета-распределение описывает, насколько мы уверены в каждой из возможных гипотез об имеющихся данных. Таким образом, мы можем производить статистические выводы на основе данных — определять, какие вероятности мы присвоим событиям и насколько можно быть в них уверенными (каковы вероятности вероятностей!).
Главное отличие бета-распределения от биномиального — в его непрерывности. Так как оно определено в бесконечном числе точек, мы не можем просто суммировать все значения, как при дискретном распределении. Вместо этого приходится применять математический анализ — но, к счастью, для вычисления интегралов можно использовать R.
Чтобы убедиться, что вы понимаете бета-распределение, попробуйте ответить на эти вопросы.
1. Вы хотите использовать бета-распределение, чтобы определить, честная ли монетка — то есть равны ли для нее вероятности выкинуть орел и решку. Вы подбрасываете монетку 10 раз и получаете 4 орла и 6 решек. Используя бета-распределение, найдите вероятность того, что орел выпадает в более чем 60 % бросков.
2. Вы еще 10 раз подбрасываете монетку и в итоге получаете 9 орлов и 11 решек. Какова вероятность того, что монетка честная, используя наше определение честности плюс-минус 5 %?
3. Данные — лучший способ убедиться в верности своих утверждений. Вы еще 200 раз подбрасываете монетку и в итоге получаете 109 орлов и 111 решек. Какова теперь вероятность того, что монетка честная (плюс-минус 5 %)?
Фреквентистский подход к статистике: вероятность — это предел частоты при увеличении числа экспериментов. — Примеч. ред.