Практически все в жизни в некоторой степени неопределенно. Это может показаться преувеличением, но чтобы в этом убедиться, проведите быстрый эксперимент. В начале дня запишите то, что, по вашему мнению, произойдет в следующие полчаса, час, три часа и шесть часов. Затем проверьте, какие из этих пунктов осуществились именно так, как вы себе представляли. Вы быстро поймете, что ваш день полон неопределенностей. Даже что-то такое предсказуемое, как «я почищу зубы» или «я выпью чашку кофе», может по тем или иным причинам не произойти, вне зависимости от ваших ожиданий.
В большинстве случаев, даже несмотря на неопределенность, мы можем достаточно хорошо спланировать свой день. Например, даже если из-за пробок вы будете добираться на работу дольше, чем обычно, то можете довольно точно оценить, во сколько нужно выходить из дома, чтобы успеть. Если у вас очень важная утренняя встреча, можете выйти раньше, чтобы учесть возможные задержки. У всех нас есть врожденное чувство того, как справляться с неопределенными ситуациями и рассуждать о неопределенности. Когда вы думаете так, вы думаете вероятностно.
Байесовская статистика помогает лучше рассуждать о неопределенности, так же как изучение логики в школе помогает увидеть ошибки в повседневном логическом мышлении. Учитывая, что практически каждый имеет дело с неопределенностью в жизни, о чем мы только что говорили, аудитория читателей этой книги становится довольно широкой. Специалисты по работе с данными и исследователи, уже использующие статистику, извлекут выгоду из более глубокого понимания и интуиции насчет работы этих инструментов. Инженеры и программисты узнают много нового о том, как лучше количественно оценивать решения, которые им приходится принимать (я даже использовал байесовский анализ для определения причин ошибок программного обеспечения!). Маркетологи и продавцы могут применять идеи, изложенные в этой книге, при проведении A/B-тестов, пытаясь понять свою аудиторию и лучше оценить возможные сделки. Любой, кто принимает решения на высоком уровне, должен иметь хотя бы базовое чувство вероятности, чтобы можно было быстро сделать предварительные оценки затрат и выгод от неопределенных решений. Я бы хотел, чтобы генеральный директор мог изучить эту книгу во время полета. К моменту приземления у него будет прочный фундамент в статистике, позволяющий лучше оценивать варианты, связанные с вероятностями и неопределенностью.
Я искренне верю, что всем будет полезно думать о проблемах байесовским способом. С помощью байесовской статистики вы можете использовать математику для моделирования неопределенности, чтобы сделать лучший выбор, учитывая ограниченную информацию. Допустим, вам нужно вовремя прийти на работу к особенно важной встрече и вы можете выбрать два разных маршрута. Первый маршрут обычно более короткий, но из-за оживленного движения могут возникнуть пробки. Второй маршрут в целом занимает больше времени, но пробок там не предвидится. Какой маршрут выбрать? Какого типа информация понадобится, чтобы принять решение? И насколько вы можете быть уверены в своем выборе? Даже небольшая добавленная сложность требует дополнительных размышлений и техники. Обычно, когда люди думают о статистике, они думают об ученых, работающих над новым лекарством, экономистах, следящих за тенденциями на рынке, аналитиках, предсказывающих следующие выборы, менеджерах по бейсболу, пытающихся создать лучшую команду, и т.д. Хотя все это, безусловно, увлекательное использование статистики, понимание основ байесовских рассуждений поможет в гораздо большем количестве областей жизни. Если вы когда-нибудь сомневались в новостях, не спали ночами и шерстили интернет в поисках ответа на вопрос «есть ли у вас редкое заболевание» или спорили с родственником по поводу их иррациональных убеждений о мире, изучение байесовской статистики поможет рассуждать лучше.
Что это за байесовский метод? Если вы когда-либо посещали занятия по статистике, скорее всего, они основывались на частотной статистике. Частотная статистика базируется на идее, что вероятность представляет собой частоту, с которой что-то происходит. Если вероятность выпадения орла при броске одной монетки равна 1 к 2, это означает, что после броска одной монетки мы можем получить половину орла (после двух бросков мы можем получить целого орла, что имеет больше смысла).
Байесовская статистика, с другой стороны, связана с тем, как вероятности отражают неопределенность полученной нами информации. С точки зрения Байеса, если вероятность выпадения орла при подбрасывании монетки равна 0,5, это означает, что мы в равной степени не уверены в том, получим мы орла или решку. Для таких проблем, как подбрасывание монеток, и частотный, и байесовский подходы кажутся разумными, но при выражении уверенности в том, что ваш кандидат победит на следующих выборах, байесовская интерпретация имеет гораздо больший смысл. В конце концов, выборы всего одни, поэтому говорить о том, как часто будет побеждать этот кандидат, не имеет смысла. При проведении байесовской статистики мы просто пытаемся точно описать, что мы думаем об окружающем мире, учитывая имеющуюся у нас информацию.
Поскольку мы можем рассматривать байесовскую статистику просто как рассуждение о неопределенных вещах, то все инструменты и методы имеют интуитивный смысл. Байесовская статистика — это поиск проблемы, с которой вы столкнулись, выяснение того, как можно описать ее математически, а затем использование причины возникновения проблемы для ее решения. Нет никаких загадочных тестов, дающих результаты, в которых вы не совсем уверены, нет распределений, которые нужно запомнить, и нет традиционных экспериментов, которые вы должны идеально воспроизвести. Хотите ли вы выяснить вероятность того, что новый дизайн сайта привлечет больше клиентов, что ваша любимая команда победит в следующей игре или что мы действительно одни во Вселенной, байесовская статистика позволит начать рассуждать об этом математически, используя всего несколько простых правил и новый взгляд на проблемы.
Вот краткое описание книги.
Первая глава знакомит вас с байесовскими рассуждениями и показывает, насколько они схожи с критическим мышлением. Основываясь на своих знаниях о мире, мы рассмотрим вероятность того, что яркий свет в окне ночью — это НЛО.
В этой главе будем подбрасывать монетку, чтобы выразить фактические значения неопределенности в виде вероятностей: это будут числа в интервале 0 и 1, которые показывают степень уверенности в своем мнении относительно чего-либо.
В логике для объединения истинных и ложных выражений используются операторы И, НЕ и ИЛИ. Оказывается, для этих операторов вероятность имеет схожие понятия. Мы рассмотрим, как обосновать выбор транспорта, чтобы добраться до места встречи, и шансы на получение штрафа.
Используя правила для вероятностей как логику, в этой главе вы построите свое собственное распределение вероятностей — биномиальное распределение, которое можно будет применить ко многим вероятностным задачам, имеющим схожую структуру. Мы попытаемся предсказать вероятность получения определенной известной коллекционной карточки из игры «гача».
Здесь вы впервые столкнетесь с непрерывным распределением вероятностей и узнаете, чем статистика отличается от теории вероятности. Практическая часть статистики включает в себя попытки выяснить, какие неизвестные вероятности могут быть основаны на данных. Мы рассмотрим загадочную коробочку для раздачи монет и шансы заработать денег больше, чем потерять.
В этой главе определим вероятности на основе имеющейся информации. Например, если мы знаем, мужчина перед нами или женщина, это позволяет предположить, страдает ли этот человек дальтонизмом. Вы также познакомитесь с теоремой Байеса, которая позволяет «обратить» условные вероятности.
Здесь визуализируем теорему Байеса на примерах деталек Lego! Эта глава даст вам пространственное представление о том, что теорема Байеса делает математически.
Теорема Байеса обычно разбивается на три части, каждая из которых в байесовских рассуждениях имеет свою цель. В этой главе вы узнаете, как они называются и как их использовать, на примере изучения ограбления со взломом: было ли это преступлением или просто серией совпадений.
В этой главе посмотрим, как можно использовать теорему Байеса, чтобы лучше понять классическую сцену с астероидом из «Звездных войн: Империя наносит ответный удар». Здесь мы углубимся в априорные вероятности в байесовской статистике. Вы также увидите, как можно использовать целые распределения как априорные вероятности.
Оценка параметров — это метод, который применяется для формулирования наилучшего предположения для неопределенного значения. Основной инструмент в оценке параметров — простое усреднение наблюдений. В этой главе мы проанализируем уровни снегопада и увидим, почему это работает.
Поиск среднего значения — полезный первый шаг в оценке параметров, но нам также нужен способ для учета разброса наблюдений. Здесь вы познакомитесь со средним абсолютным отклонением (Mean Absolute Deviation, MAD), дисперсией и стандартным отклонением как способами измерения разброса наблюдений.
Комбинируя среднее значение и стандартное отклонение, мы получаем очень полезный инструмент для оценки: нормальное распределение. В этой главе вы узнаете, как использовать нормальное распределение, чтобы не только оценить неизвестные значения, но и узнать степень уверенности в оценках. Применим эти новые навыки, чтобы рассчитать время побега при ограблении банка.
Здесь вы узнаете о функции плотности вероятности (PDF), кумулятивной функции распределения (CDF) и квантильной функции, чтобы лучше понять выполняемые вами оценки параметров. С помощью этих инструментов вы оцените коэффициенты конверсии рассылки и увидите, на что они влияют.
Хороший способ улучшить оценки параметров — добавить априорную вероятность. В этой главе вы узнаете, как добавление априорной информации об успешном использовании коэффициента переходов в письме поможет лучше оценить реальный коэффициент конверсии для новых рассылок.
Теперь, когда мы можем оценивать неопределенные значения, нужно найти способ их сравнения для проверки гипотез. Вы создадите A/B-тест, чтобы определить степень уверенности в новом методе электронного маркетинга.
Было ли у вас такое, что вы не спали полночи, гугля симптомы редкой болезни, которая, как вам кажется, у вас есть? В этой главе мы представим другой подход к проверке идей, который поможет определить, стоит ли волноваться.
Вы верите в экстрасенсорные способности? В этой главе будем развивать собственные навыки чтения мыслей, проанализировав ситуацию из эпизода «Сумеречной зоны».
Иногда кажется, что данных недостаточно, чтобы изменить чье-то мнение или выиграть спор. Узнайте, как переубедить друга в том, с чем вы не согласны, и почему не стоит тратить время на споры с воинственным дядей!
Здесь мы вернемся к оценке параметров и узнаем, как сравнить ряд гипотез. Вы рассмотрите первый пример статистики — бета-распределение, используя инструменты, которые мы изучили для простых проверок гипотез, чтобы проанализировать честность конкретной игры.
В этом небольшом приложении даны основы языка программирования R.
Здесь мы рассмотрим математику на уровне, достаточном для того, чтобы понимать расчеты, приведенные в книге.
Здесь вы найдете все упражнения и ответы к ним.
Для некоторых упражнений есть несколько способов решения, поэтому я дам как минимум один вариант.
Единственным требованием к читателю является знание основ алгебры средней школы. Далее в книге вы увидите несколько примеров вычислений, но не особенно сложных. Мы будем использовать немного кода на языке программирования R. Необходимости изучать R заранее нет, я расскажу обо всем по ходу дела. Мы также коснемся высшей математики, но опять же никакого опыта не требуется: в приложениях дано достаточно информации для понимания темы.
Другими словами, эта книга призвана помочь вам начать думать математически, не требуя значительных математических знаний. Когда вы закончите чтение, то сможете даже написать уравнения для описания проблем, с которыми сталкиваетесь в жизни!
Если у вас действительно есть серьезный опыт в статистике (даже в байесовской статистике), думаю, вы все равно весело проведете время с этой книгой. Я считаю, что лучший способ хорошо понять тему — пересматривать основы раз за разом, каждый раз в ином свете. Даже я, автор этой книги, обнаружил в процессе работы много всего нового, что меня удивило!
Вы увидите, что байесовская статистика не только очень полезна, но и может доставлять массу удовольствия! Чтобы изучить байесовские рассуждения, поговорим о Lego, «Сумеречной зоне», «Звездных войнах» и о многом другом. Вскоре вы обнаружите, что начинаете думать о задачах вероятностно и повсюду использовать байесовскую статистику. Эта книга — для быстрого и приятного чтения, поэтому смело переворачивайте страницу и отправляйтесь в путешествие по миру байесовской статистики!
Ваши замечания, предложения, вопросы отправляйте по адресу [email protected] (издательство «Питер», компьютерная редакция).
Мы будем рады узнать ваше мнение!
На веб-сайте издательства www.piter.com вы найдете подробную информацию о наших книгах.
Изначально автомат по продаже игрушек для получения различных коллекционных предметов. Зародилась в Японии. — Примеч. ред.