В этой главе мы обсудим байесовские рассуждения — формальный способ уточнить наши представления об окружающем мире, основываясь на наблюдаемых данных. Мы проработаем сценарии и поймем, как связать повседневный опыт с байесовскими рассуждениями.
Хочу вас обрадовать! Все вы уже встречались с байесовскими рассуждениями еще до того, как взяли в руки эту книгу. Байесовская статистика очень хорошо согласуется с тем, как люди рассуждают в обычной жизни, делая выводы из имеющихся сведений. Сложность лишь в том, чтобы разбить этот процесс на шаги и привести к строгой математической форме.
В статистике, чтобы правильно оценивать вероятности, надо строить модели и производить вычисления. Но сейчас мы не будем обращаться к математическим моделям, а просто познакомимся с основными понятиями и узнаем, что такое вероятность, обращаясь к интуиции. Уже потом, в следующих главах, мы присвоим вероятностям точные численные значения. В дальнейшем вы узнаете, как использовать математические методы для построения формальных моделей и для строгих рассуждений о понятиях, вводимых в этой главе.
Как-то ночью вы вдруг просыпаетесь от бьющего в окно яркого света. Вы вскакиваете с кровати, выглядываете на улицу и видите в небе большой объект в форме — да-да — тарелки. Вообще-то, вы скептик и никогда не верили в истории о встречах с инопланетянами, но в растерянности от увиденного и невольно думаете: «А может, это НЛО?!»
Байесовские рассуждения повторяют ход ваших мыслей, когда вы столкнулись с новой ситуацией — заметить сделанные вероятностные предположения и, основываясь на этих предположениях, обновить представления о мире.
В ситуации с НЛО вы уже прошли весь цикл байесовского анализа, а именно:
1) получили данные;
2) сформулировали гипотезу;
3) пересмотрели свои представления, основываясь на новых данных.
Эти рассуждения обычно происходят так быстро, что вы не успеваете проанализировать собственные мысли. Вы обновили представления о мире, не задаваясь лишними вопросами: хотя до этого вы и не верили в НЛО, после этого происшествия вы пересмотрели свои взгляды и теперь уверены, что увидели летающую тарелку.
В этой главе мы сосредоточимся на том, как упорядочить свои представления о мире, и на том, как возникают новые суждения, чтобы взглянуть на них более строго. К числам мы перейдем в следующих главах.
Рассмотрим все этапы наших рассуждений, начиная с получения данных.
Ключевая идея байесовских рассуждений — делать выводы, исходя из имеющихся данных. Перед тем как сделать какие-либо выводы о ситуации (например, заявить, что вы видели НЛО), нужно понять полученные данные. В нашем случае:
• ослепительный свет за окном;
• висящий в воздухе объект в форме тарелки.
На основании прошлого опыта вы можете описать картину за окном как неожиданную. На вероятностном языке это можно записать так:
P (яркий свет за окном, тарелкообразный объект в небе) = очень низкая,
где P — обозначение для вероятности, а данные перечислены в скобках. Это равенство можно прочитать как: «Вероятность наблюдать яркий свет за окном и тарелкообразный объект в небе очень низкая». Рассматривая совместную вероятность нескольких событий, перечисляем эти события через запятую. Заметим (это важно, как мы увидим дальше!), что в этих данных нет ни слова об НЛО: они состоят только из наблюдений. Можно также рассматривать вероятности отдельных событий, они будут записываться так:
P (дождь) = весьма высокая,
что расшифровывается как: «Вероятность дождя весьма высокая».
В сценарии про НЛО мы должны определить вероятность того, что произойдут одновременно оба события. Вероятность только одного из этих событий будет совсем другой. Например, источником яркого света легко может оказаться проезжающая машина, так что вероятность одного этого события гораздо больше, чем совместно с наблюдением «тарелки» («тарелка» весьма неожиданна сама по себе).
Так как же определить вероятности? Пока обратимся к интуиции — общим представлениям о том, насколько ожидаемы события. В следующей главе мы увидим, как придать вероятностям точные числовые значения.
Встать утром, заварить кофе и поехать на работу — задачи, не требующие от вас аналитических усилий. У вас есть априорные предположения (prior beliefs) о том, как устроен мир. Наши априорные предположения — набор представлений, сформированных за годы жизни (то есть на основе наблюдения за данными!). Вы уверены, что взойдет солнце — оно восходило каждый день, начиная с вашего рождения. Вы можете также предполагать, что если на перекрестке для вас зеленый свет, а для перпендикулярного потока — красный, то можно безопасно проезжать перекресток. Без априорных предположений мы каждый вечер ложились бы спать с ужасом, что завтра солнце может не взойти, а на каждом перекрестке останавливались бы, пристально вглядываясь в приближающиеся машины.
Наши априорные предположения подсказывают, что одновременно увидеть за окном яркий свет и нечто вроде тарелки в небе — весьма редкий случай. По крайней мере, на Земле. Однако живи вы на далекой планете, кишащей летающими тарелками и постоянно посещаемой космическими пришельцами, вероятность увидеть огни и тарелки была бы гораздо выше.
Поэтому мы вводим в формулу наши априорные предположения, отделяя их вертикальной чертой |:
Это равенство читается так: «Вероятность наблюдать яркий свет за окном и тарелкообразный объект в небе при условии, что дело происходит на Земле, очень низкая».
Такая вероятность называется условной — мы оцениваем вероятность события при некотором условии. В данном случае условия — наш прошлый опыт.
Для вероятности использовалось обозначение P. Часто мы также используем короткие обозначения для событий и условий. Если вы не привыкли к уравнениям, они могут казаться слишком сжатыми. Но через некоторое время вы увидите, как короткие названия переменных упрощают чтение и помогают обобщать равенства в целые классы задач.
Так, все наши данные мы будем обозначать одной буквой D:
D= яркий свет за окном, тарелкообразный объект в небе.
С этого момента, когда мы говорим о вероятности нашего набора данных, то пишем просто P (D). Аналогично для априорных предположений мы будем использовать переменную X, например:
X= дело происходит на Земле.
Теперь мы можем обозначать вероятность как P (D | X). Смысл не поменялся, а запись стала намного проще.
Если на вероятность могут влиять несколько факторов, можно использовать более одного априорного предположения. Допустим, дело происходит под Новый год и ваш опыт говорит вам, что в Новый год часто запускают фейерверки. Если дело происходит на Земле, а на календаре при этом 1 января, увидеть в небе огни уже не так неожиданно, да и сама тарелка может оказаться причудливым фейерверком. Теперь уравнение выглядит так:
При учете обоих условий наша условная вероятность превращается из «очень низкой» в просто «низкую».
В статистике весь наш прошлый опыт обычно не вводится как явное условие, его существование предполагается неявно. Поэтому здесь мы не будем вводить для этого условия отдельную переменную. Однако в байесовском анализе очень важно помнить, что наше понимание мира всегда обусловлено прошлым опытом. Всю эту главу переменная «дело происходит на Земле» будет сохраняться.
Итак, у нас имеются данные D (мы видели яркий свет и тарелкообразный объект) и наш прошлый опыт X. Чтобы объяснить, что же мы увидели, следует выдвинуть некоторую гипотезу — модель мира, которая даст какое-то предсказание. Гипотезы бывают разными. По сути, все наши основные представления о мире — гипотезы:
• если вы верите, что Земля вертится, вы можете предсказать, что Солнце будет всходить и заходить в определенное время;
• если вы верите, что бейсбольная команда, за которую вы болеете, — самая сильная, то можете предсказать, что они будут выигрывать чаще других команд;
• если вы верите в астрологию, то можете предсказать, что расположение звезд говорит о людях и событиях.
Гипотезы могут быть и более формальными или сложными:
• ученый может строить гипотезу, что некоторое лекарство замедлит развитие рака;
• финансовый аналитик может строить модель ситуации на рынке;
• глубокая нейронная сеть может определять, на каких картинках изображены животные, а на каких — растения.
Все это — примеры гипотез, в них заложен некоторый способ понимания мира, и он используется для предположения о том, что будет происходить. Говоря о гипотезах в байесовской статистике, мы обычно интересуемся, насколько хорошо они предсказывают наблюдаемые нами данные. Когда после увиденного вы думаете: «НЛО!» — то выдвигаете гипотезу. Гипотеза об НЛО, скорее всего, основана на бесчисленных фильмах и телепередачах, просмотренных ранее. Обозначим нашу первую гипотезу так:
H1= НЛО у меня во дворе!
Но что же предсказывает эта гипотеза? «Задним числом» можно спросить: «Что вы ожидали бы увидеть, если бы у вас во дворе приземлилось НЛО?» И ответ был бы таким: «Яркий свет и объект в форме тарелки». Так как гипотеза H1 предсказывает данные D, то, когда мы наблюдаем эти данные при условии верности гипотезы, их вероятность повышается. Формально это записывается как:
P (D | H1, X) >> P (D | X).
Это равенство читается так: «Вероятность увидеть яркий свет за окном и тарелкообразный объект в небе при условии, что это НЛО, и при моем прошлом опыте намного больше (что показано двумя знаками «больше»: >>), чем просто увидеть яркий свет за окном и тарелкообразный объект в небе без объяснений». Здесь используется язык теории вероятностей, чтобы показать, что гипотеза объясняет имеющиеся данные.
Легко заметить связь вероятности с тем, как мы говорим в обычной жизни. Сказать, что нечто «неожиданно» — это как сказать, что эти данные имеют низкую вероятность на основании нашего прошлого опыта. Слова, что нечто «правдоподобно», могут означать, что данные имеют большую вероятность на основании наших априорных предположений. Сейчас такие переформулировки кажутся очевидными, но суть вероятностных рассуждений — следить, как вы интерпретируете данные, строите гипотезы и меняете представления даже в обычной жизни. Без гипотезы H1 вы были бы в растерянности и не смогли бы объяснить наблюдаемые данные.
Итак, у вас есть данные и гипотеза. Однако с учетом вашего предыдущего опыта (а вы всегда были скептиком) гипотеза все еще смотрится диковато. Чтобы прийти к более надежным выводам, нужно собрать больше данных. Это следующий шаг в статистических рассуждениях (впрочем, в жизни мы интуитивно делаем то же самое). Чтобы собрать больше данных, надо провести новые наблюдения. В нашем сценарии вы выглядываете в окно, чтобы осмотреться.
Вы видите, что источников света вокруг уже несколько, что «тарелка» удерживается канатами, замечаете оператора с камерой, слышите хлопок и крик: «Стоп! Снято!»
Наверняка вы тут же поменяли мнение о том, что случилось. До этого вы думали, что видите НЛО. Но новые данные говорят, что, кажется, рядом снимают кино. Ваш мозг только что за секунды провел сложный байесовский анализ! Разберем подробнее, что же произошло.
Исходная гипотеза:
H1= Приземлилось НЛО!
Сама по себе, при условии вашего прошлого опыта, такая гипотеза крайне маловероятна:
P (H1 | X) = очень-очень низкая.
Но это была единственная толковая гипотеза, которую можно было построить при имеющихся данных. После получения дополнительных данных вы немедленно приходите к другой возможной гипотезе — рядом снимают кино:
H2= За окном снимают кино.
Вероятность этой гипотезы самой по себе также представляется очень низкой (если вы не живете рядом с киностудией):
P (H2 | X) = очень низкая.
Заметим, что мы присвоили H1 «очень-очень низкую» вероятность, а H2 просто «очень низкую». Это согласуется с житейской интуицией. Если бы у вас спросили (без всяких дополнительных данных), что более правдоподобно: ночное появление рядом НЛО или съемки фильма по соседству, вы бы ответили, что съемки правдоподобнее визита пришельцев.
Теперь нам нужно понять, как учитывать новые данные при пересмотре представлений.
Сначала вы приняли гипотезу об НЛО, несмотря на ее неправдоподобие, поскольку иных объяснений не было. Но теперь есть другое возможное объяснение — киносъемки, так что появилась альтернативная гипотеза. Рассмотреть альтернативную гипотезу — значит сравнить теории, используя имеющиеся данные.
Когда вы видите канаты, съемочную группу и свет, меняются данные. Обновленные данные выглядят так:
Dобнов.= яркий свет, объект в форме тарелки, канаты, съемочная группа, другие источники света и т.д.
Получив дополнительные данные, вы меняете мнение о том, что происходит.
Разобьем этот процесс на байесовские шаги. Ваша исходная гипотеза, H1, сначала объясняла все данные, но после дополнительных наблюдений H1 уже не может это сделать. Это можно записать так:
P (Dобнов. | H1, X) = очень-очень низкая.
Теперь у вас есть новая гипотеза, H2, объясняющая данные гораздо лучше, то есть:
P (Dобнов. | H2, X) >> P (Dобнов. | H1, X).
Ключевой момент — сравнить, насколько хорошо две гипотезы объясняют наблюдаемые данные. Говоря, что вероятность наших данных при условии второй гипотезы намного больше, чем при условии первой, мы сообщаем, что вторая гипотеза объясняет наблюдения лучше. Это подводит нас к сути байесовского анализа: проверкой убеждений является то, насколько хорошо они объясняют мир. Мы считаем, что некоторые представления правильнее других, поскольку они лучше объясняют наблюдаемые вокруг явления. Математически мы выражаем нашу идею как отношение двух вероятностей:
.
Большое отношение, например 1000, означает, что «H2 объясняет данные в 1000 раз лучше, чем H1». Так как H2 объясняет данные во много раз лучше, чем H1, мы меняем наши представления с H1 на H2. Именно это произошло, когда вы поменяли мнение о наблюдаемом явлении. Теперь вы считаете, что увидели за окном киносъемки, и это более правдоподобное объяснение для имеющихся данных.
Напоследок стоит подчеркнуть: абсолютны и неоспоримы во всех наших примерах только данные. Гипотезы меняются, опыт X различен для разных людей, но данные D одинаковы для всех. Рассмотрим две формулы. Первую мы использовали на протяжении всей главы:
P (D | H, X).
Она означает вероятность данных с учетом гипотезы и опыта, проще говоря, «насколько хорошо мои представления объясняют наблюдаемое».
Но можно обратить ее (что мы часто делаем в обычной жизни):
P (H | D, X).
Получим «вероятность моих представлений при условии данных и опыта», то есть «насколько хорошо то, что я вижу, согласуется с моими убеждениями».
В первом случае мы меняем представления о мире в соответствии с собранными данными. Во втором — собираем данные для поддержки имеющихся представлений.
Байесовский стиль мышления основан на пересмотре и изменении представлений о мире. Реальны только данные, а наши представления о мире должны с ними согласовываться. В жизни нужно быть готовым поменять свое мнение. Когда съемочная группа собирается уезжать, вы замечаете, что на всех машинах армейская символика. Группа снимает куртки, под ними — военная форма, и кто-то говорит: «Если кто-то это видел, то мы точно его обдурили. Отличная работа!» С такими новыми данными вы наверняка еще раз поменяете мнение!
Повторим, что мы узнали. Наши представления о мире исходно основаны на имеющемся опыте X. Полученные данные X либо согласуются с опытом, P (D | X) = очень высокая, либо оказываются неожиданными, P (D | X) = очень низкая.
Пытаясь объяснить окружающий мир, вы выдвигаете мнение об увиденном, или гипотезу, H. Нередко новая гипотеза позволяет объяснить неожиданные данные, P (D | H, X) >> P (D | X). Получив новые данные или придумав новые идеи, вы можете выдвинуть больше гипотез, H1, H2, H3, … Вы меняете представления о мире, когда новая гипотеза объясняет данные лучше старой:
Наконец, важно обращать больше внимания на данные, меняющие представления, а не на поддержку имеющихся представлений, P (H | D).
Итак, мы изучили основы и теперь можем добавить цифры. Далее в части I вы построите математическую модель своих представлений о мире, чтобы точно определить, когда и как их менять.
Попробуйте ответить на эти вопросы, чтобы понять, насколько хорошо вы научились байесовским рассуждениям. Решения можно найти здесь: https://nostarch.com/learnbayes/.
1. Перепишите утверждения ниже, используя математическую нотацию из этой главы:
• вероятность дождя низкая;
• вероятность дождя при условии облачности высокая;
• вероятность, что вы с зонтом при условии дождя, выше, чем просто вероятность, что вы с зонтом.
2. Запишите, используя математические обозначения из этой главы, данные из такой истории. Придумайте гипотезу, объясняющую эти данные.
Вы приходите домой с работы и замечаете, что дверь открыта, а окно разбито. Войдя, вы видите, что вашего ноутбука нет на месте.
3. Дополним историю выше новыми данными. Покажите, как новая информация меняет ваши представления, и придумайте новую гипотезу для объяснения данных. Используйте обозначения из этой главы!
К вам подбегает соседский ребенок и долго извиняется, что случайно попал камнем в ваше окно. Он говорит, что заметил ноутбук и испугался, что его украдут. Открыв дверь, он унес его к себе до вашего прихода.