Книга: Голая статистика. Самая интересная книга о самой скучной науке
Назад: Приложение к главе 4
Дальше: 5½. Загадка Монти Холла

5. Основы теории вероятностей
Не покупайте расширенную гарантию для своего 99-долларового принтера

В 1981 году Joseph Schlitz Brewing Company потратила 1,7 миллиона долларов на необычайно смелую и рискованную маркетинговую кампанию для своего слабеющего бренда Schlitz. В перерыве матча за Суперкубок американского футбола Joseph Schlitz Brewing Company перед 100-миллионной зрительской аудиторией из разных стран мира провела в прямом эфире сравнительную дегустацию пива Schlitz Beer и его главного конкурента – пива Michelob, причем участвовали в ней не случайные люди, а сотня любителей пива Michelob. Это стало кульминацией маркетинговой кампании, проходившей в ходе игр плей-офф NFL. Всего транслировалось пять таких дегустаций; в каждой участвовало по 100 любителей конкурирующих сортов пива (Budweiser, Miller или Michelob), вслепую дегустировавших свой любимый сорт пива и Schlitz Beer. Каждый сеанс сопровождался рекламой, агрессивность которой не уступала агрессивности игр плей-офф (например, «Следите за сравнительной дегустацией Schlitz и Budweiser, проводимой во время игр плей-офф AFC»).
Маркетинговый месседж был совершенно четким: даже те, кому кажется, что они любят другой сорт пива, во время слепой дегустации отдают предпочтение пиву Schlitz. Во время матча за Суперкубок компания даже воспользовалась услугами одного из бывших судей NFL, который выступал в роли наблюдателя за ходом дегустации. Учитывая рискованный характер трансляции подобного действа в прямом эфире, вы, должно быть, подумали, что Joseph Schlitz Brewing Company выпустила потрясающее пиво?
Необязательно. В этом случае компании, которая знает толк в статистике, было достаточно предложить потребителям вполне ординарное пиво. Руководство Joseph Schlitz Brewing Company понимало, что такая уловка – слово, которым я стараюсь не злоупотреблять, даже когда речь идет о рекламе пива, – почти наверняка сработает. Большинство сортов пива в категории Schlitz имеют примерно одинаковый вкус, и парадокс заключается в том, что Joseph Schlitz Brewing Company использовала в своей рекламной кампании именно это обстоятельство. Допустим, что рядовой любитель пива, так сказать «человек с улицы», неспособен отличить пиво Schlitz от Budweiser, Michelob или Miller. В таком случае сравнительная дегустация (выполняемая вслепую) любой пары сортов пива, по сути, равноценна подбрасыванию монеты. В среднем половина дегустаторов-любителей выберет Schlitz, а другая половина – пиво конкурента. Уже один этот факт, скорее всего, не позволил бы провести особо эффективную рекламную кампанию. («Вы не в состоянии уловить разницу, поэтому вполне могли бы пить Schlitz».) С другой стороны, Joseph Schlitz Brewing Company, безусловно, не хотелось бы проводить подобную акцию среди собственных лояльных клиентов, поскольку примерно половина из них предпочла бы какой-либо из конкурирующих сортов пива. А это очень плохо, когда приверженцы вашего бренда в ходе слепой дегустации выбирают какой-либо из сортов конкурентов, – но именно этот прием Joseph Schlitz Brewing Company пыталась против них применить.
Schlitz придумала умнейший ход. Гвоздем ее рекламной кампании стало проведение сравнительной дегустации среди любителей пива, отдающих предпочтение конкурирующим сортам этого напитка. Если слепая дегустация действительно равносильна подбрасыванию монеты, то примерно половина любителей Budweiser, Michelob или Miller обязательно выберет Schlitz. В результате Schlitz предстанет в более выгодном свете, чем конкуренты: половине любителей Budweiser понравилось пиво Schlitz!
Все это выглядит особенно убедительно в перерыве матча за Суперкубок, если дегустацией руководит бывший арбитр NFL (в соответствующей униформе). Вместе с тем это действо происходит в прямом телеэфире. Даже если статистикам из Joseph Schlitz Brewing Company предварительно удалось выяснить (в результате многочисленных дегустаций, проводившихся в частном порядке), что типичный любитель Michelob в половине случаев предпочтет пиво Schlitz, то как быть, если 100 любителей пива Michelob «начудят» во время дегустации в прямом эфире? Конечно, слепая дегустация равноценна подбрасыванию монетки, но все же как быть, если большинство дегустаторов чисто случайно выберут Michelob? В конце концов, если бы мы собрали тех же 100 парней и попросили их подбросить монетку, то вполне возможно, что в 85 или даже в 90 случаях из 100 выпала бы решка. Такая случайность во время дегустации в прямом эфире стала бы для бренда Schlitz подлинной катастрофой (не говоря уж о потере 1,7 миллиона долларов, затраченных на покупку телевизионного рекламного времени).
Но на помощь пришла статистика! Если бы в нашем мире существовал некий супергерой статистики, то именно сейчас должен был бы появиться в штаб-квартире Joseph Schlitz Brewing Company и поведать о том, что статистики называют биномиальным экспериментом (или экспериментом Бернулли). Ключевые характеристики биномиального эксперимента таковы: наличие некоего фиксированного числа испытаний (например, 100 дегустаторов), каждое с двумя возможными исходами (Schlitz или Michelob), и одинаковая вероятность «успеха» в каждом испытании. (Я предполагаю, что вероятность отдать предпочтение одному или другому сорту пива равна 50 %; кроме того, я определяю успех как выбор дегустатором пива Schlitz.) Мы также исходим из того, что все испытания независимы, то есть решение одного дегустатора не оказывает влияния на решение другого.
Основываясь лишь на этой информации, наш статистический супергерой может вычислить вероятность всех исходов для 100 испытаний, например 52 Schlitz и 48 Michelob или 31 Schlitz и 69 Michelob. Те из нас, кто не претендует на звание супергероя, могут воспользоваться компьютером, чтобы получить тот же результат. Вероятность того, что все 100 дегустаторов выберут пиво Michelob, составляет 1 шанс из 1 267 650 600 228 229 401 496 703 205 376. Должен сказать, что вероятность того, что все дегустаторы погибнут вследствие падения астероида в перерыве матча за Суперкубок NFL, будет, пожалуй, даже меньше. Для нас гораздо важнее тот факт, что те же базовые вычисления позволяют определить суммарную вероятность для целого ряда исходов, например вероятность того, что 40 или меньше дегустаторов предпочтут пиво Schlitz. Эти подсчеты наверняка развеют опасения сотрудников маркетингового отдела Joseph Schlitz Brewing Company.
Предположим, что Joseph Schlitz Brewing Company вполне бы устроило, если бы по меньшей мере 40 из 100 дегустаторов выбрали пиво Schlitz – впечатляющий результат слепой дегустации, если принять во внимание, что все 100 дегустаторов – любители пива Michelob. Между тем вероятность подобного (очень и очень неплохого) исхода весьма высока. Если такая дегустация действительно равноценна подбрасыванию монеты, то, согласно теории вероятностей, вероятность того, что по меньшей мере 40 из 100 дегустаторов выберут пиво Schlitz, равняется 98 %, а вероятность того, что пиво Schlitz предпочтут как минимум 45 из 100 дегустаторов, – 82 %. Так что теоретически никакого особого риска в затее Joseph Schlitz Brewing Company не было.
Итак, чем же закончился этот трюк для Joseph Schlitz Brewing Company? В перерыве матча за Суперкубок NFL 1981 года в ходе слепой сравнительной дегустации ровно 50 % любителей пива Michelob отдали предпочтение Schlitz.
Из этого примера следуют два важных урока: во-первых, вероятность – чрезвычайно мощный инструмент, и во-вторых, многие ведущие сорта пива в 1980-е годы были практически неотличимы друг от друга. Но в этой главе мы сосредоточимся именно на первом уроке.
Теория вероятностей – это наука о событиях и исходах, содержащих элемент неопределенности. Инвестирование на рынке ценных бумаг сопряжено с неопределенностью. То же касается и подбрасывания монетки, в результате которого может выпасть орел или решка. Подбрасывание монетки четыре раза подряд порождает дополнительные уровни неопределенности, поскольку каждое из четырех подбрасываний способно привести к выпаданию орла или решки. Следовательно, вы не можете заранее знать исход этого эксперимента. Тем не менее я могу с некоторой долей уверенности говорить, что одни исходы (два раза орел, два раза решка) более вероятны, чем другие (четырежды орел). Как справедливо решили сотрудники Joseph Schlitz Brewing Company, выводы, основанные на теории вероятностей, могут оказаться чрезвычайно полезными. Вообще говоря, если вы поймете, почему вероятность выпадания орла четыре раза подряд равняется одному шансу из 16 (если, конечно, при этом не используется монетка со смещенным центром тяжести), то наверняка начнете понимать (приложив немного умственных усилий) буквально все, от принципа работы страховой индустрии до действий профессиональной футбольной команды в той или иной игровой ситуации (например, почему они совершили дополнительный удар после тачдауна или предпочли двухочковый переход).
Начнем с самого легкого: вероятности многих событий известны заранее. Вероятность выпадания орла при однократном подбрасывании «правильной» монетки равняется ½, а единицы при однократном подбрасывании игральной кости – 1/6. Выводы относительно вероятности наступления других событий можно сделать на основе прошлых данных. Вероятность успешного выбивания дополнительного очка после тачдауна в профессиональном футболе составляет 0,94; это означает, что бьющие по мячу игроки совершают в среднем 94 из каждых 100 дополнительных попыток. (Очевидно, что эта величина может несколько разниться у разных игроков; кроме того, она зависит от погодных условий и прочих сторонних факторов, однако не может существенно отклоняться от 0,94.) Наличие такого рода информации и умение правильно ее оценить зачастую облегчает принятие решений и позволяет лучше уяснить риски. Например, Австралийский совет по безопасности на транспорте опубликовал отчет о количественной оценке фатальных рисков при авариях на разных видах транспорта. Несмотря на широко распространенную боязнь летать самолетами, риски, связанные с пассажирскими авиаперевозками, ничтожно малы. Начиная с 1960-х годов в гражданской авиации Австралии не зафиксировано ни одной катастрофы со смертельным исходом; таким образом, коэффициент смертности в расчете на каждые 100 миллионов километров «налета», по сути, равен нулю. Для автомобильного транспорта он составил 0,5. В этом отчете впечатляет показатель для мотоциклистов. Для тех, кого вдохновляет идея стать донором органов, сообщаем: у мотоциклистов доля несчастных случаев со смертельным исходом в расчете на каждые 100 миллионов километров пробега в тридцать пять раз выше, чем у автомобилистов.
В сентябре 2011 года 6,5-тонный спутник НАСА начал падение на Землю; ожидалось, что при прохождении плотных слоев атмосферы он распадется на части. Какой была вероятность того, что вам на голову упадет один из осколков этого спутника? Может быть, мне не следовало в те дни отправлять детей в школу? По оценке ученых-ракетчиков НАСА, вероятность попадания одного из фрагментов спутника в какого-то конкретного человека составляла 1 шанс из 21 триллиона. Тем не менее вероятность того, что кто-либо где-либо на Земле будет ушиблен куском этого спутника, оказалась не так уж мала – 1 шанс из 3200. В конечном счете спутник действительно развалился на части, но куда именно они упали, науке до сих пор неизвестно. Зато известно, что никто не обращался за медицинской помощью по причине такого рода травмирования. Вероятность не говорит нам о том, что случится наверняка; она лишь предупреждает, что может произойти с высокой степенью вероятности или с менее высокой. Здравомыслящие люди могут использовать эти данные у себя на работе или в повседневной жизни. Например, когда вы слышите по радио сообщение о том, что на Землю падает очередной спутник, вовсе не обязательно мчаться домой на мотоцикле, чтобы предупредить семью.
Когда речь заходит о риске, наши страхи не всегда бывают адекватны тому, что говорят нам числа о реальной опасности, которой мы подвергаемся, то есть о том, чего нам действительно следует бояться. Один из поразительных выводов сделали Стивен Левитт и Стивен Дабнер, авторы книги «Фрикономика» (Freakonomics), заявив, что плавательный бассейн во дворе вашего дома гораздо опаснее, чем заряженный револьвер, хранящийся у вас в шкафу. Левитт и Дабнер подсчитали: вероятность того, что ребенок в возрасте до десяти лет утонет в плавательном бассейне, в сто раз превышает вероятность того, что он случайно застрелится, играя с вашим револьвером (если, конечно, найдет его в шкафу). В интересной статье трех исследователей из Корнелльского университета – Гаррика Блалока, Вринды Кадияли и Дэниела Саймона – сообщается о том, что тысячи американцев, возможно, умерли после теракта 11 сентября из-за страха летать самолетами. Мы никогда не узнаем подлинных рисков, связанных с терроризмом; однако нам доподлинно известно, что вождение автомобиля – опасное занятие. Когда после теракта 11 сентября американцы решили больше ездить наземным транспортом, чем летать, ежемесячное количество дорожно-транспортных происшествий в октябре, ноябре и декабре 2001 года, согласно оценкам авторов данного исследования, увеличилось на 344 случая (с учетом среднего количества погибших и факторов, которые обычно способствуют ДТП, например погодных условий). Со временем – предположительно в результате уменьшения боязни терроризма – этот эффект сам по себе сошел на нет, но, по оценкам исследователей, теракты 11 сентября как таковые привели к более чем 2000 дорожно-транспортных происшествий со смертельным исходом.
Иногда вероятность может также говорить нам постфактум, что, по-видимому, произошло и что, по-видимому, не произошло – как в случае с анализом ДНК. Когда эксперты в телесериале CSI: Miami находят следы слюны на огрызке яблока рядом с жертвой преступления, в этой слюне нельзя обнаружить имя убийцы, даже если ее рассматривает через мощный микроскоп очень симпатичная девушка-эксперт. Однако эта слюна (или волос, или кусочек кожи или кости) содержит сегмент ДНК, в котором, в свою очередь, есть участки (локусы), специфические для каждого человека (за исключением однояйцовых близнецов, имеющих одну и ту же ДНК). Когда медэксперт заключает, что у некоего образца ДНК выявлено совпадение, это лишь часть того, что предстоит доказать следствию. Да, определенные локусы на образце ДНК, взятом с места преступления, должны совпадать с соответствующими локусами на образце ДНК, взятом у подозреваемого. Тем не менее следователям также предстоит доказать, что такое совпадение неслучайно.
ДНК у разных людей бывают похожи, как и многие другие характеристики: размер обуви, рост, цвет глаз. (Свыше 99 % ДНК у людей идентичны.) Если в распоряжении исследователей есть только малый образец ДНК, на котором можно проверить лишь пару-тройку участков, то вполне возможно, что у тысяч или даже миллионов людей окажется точно такой же генетический фрагмент. Следовательно, чем большее число локусов будет проверено и чем большее естественное генетическое отклонение будет в каждом из них обнаружено, тем определеннее окажется совпадение. Можно сказать и по-другому: тем меньше вероятность того, что данный образец ДНК совпадет с несколькими людьми.
Чтобы лучше уяснить ситуацию с ДНК, представьте, что ваше «число ДНК» состоит из вашего телефонного номера, присоединенного к номеру вашей карточки социального страхования. Эта последовательность из девятнадцати цифр идентифицирует вас уникальным образом. Допустим, что каждая такая цифра представляет собой «участок» с десятью возможностями: 0, 1, 2, 3 и т. д. Предположим также, что следователи обнаружили на месте преступления остаток некоего «числа ДНК»: _ _ 4 5 9 _ _ _ 4 _ 0 _ 9 8 1 7 _ _ _. Оказалось, что этот фрагмент в точности совпадает с вашим «числом ДНК». Итак, вы – преступник?
Следует обратить внимание на три вещи. Во-первых, все, что меньше чем полное совпадение с полным геномом, оставляет некоторый простор для неопределенности. Во-вторых, чем больше локусов, которые мы можем проверить, тем меньше неопределенность. И в-третьих, важен контекст. Выявленное совпадение было бы чрезвычайно убедительным, если бы нашлись свидетели того, как вы пытались скрыться с места преступления, или если бы у вас в кармане обнаружили кредитную карточку жертвы.
Когда следователи располагают неограниченным временем и ресурсами, типичный процесс включает в себя проверку тринадцати разных локусов. Шансы, что профиль ДНК у двух разных человек совпадает по всем тринадцати локусам, чрезвычайно малы. Когда для идентификации останков, найденных во Всемирном торговом центре после терактов 11 сентября, использовался анализ ДНК, образцы, обнаруженные на месте трагедии, сравнивались с образцами, предоставленными членами семей жертв теракта. Вероятность, требовавшаяся для позитивной идентификации, равнялась один из миллиарда; то есть вероятность того, что останки принадлежат кому-то другому, а не идентифицируемой жертве, не превышает одного шанса из миллиарда. Впоследствии, по мере того как оставалось все меньше и меньше неидентифицированных жертв, с которыми могли бы быть спутаны останки, этот стандарт был ослаблен.
Если ресурсы ограниченны или имеющийся образец ДНК слишком мал или загрязнен, чтобы можно было проверить тринадцать локусов, ситуация становится более запутанной и спорной. В 2008 году газета Los Angeles Times опубликовала серию материалов, посвященных использованию ДНК при расследовании преступлений. В частности, издание задалось вопросом, не недооценена ли возможность случайных совпадений при использовании стандарта вероятности, определяемого законом. (Поскольку профиль ДНК всего населения не знает никто, то вероятности, на которые ссылаются в суде ФБР и другие правоохранительные органы, носят лишь оценочный характер.) Весьма неоднозначную реакцию в обществе вызвала информация о том, что эксперт-криминалист из Аризоны, выполнявший тесты на основе базы данных ДНК этого штата, обнаружил совпадение ДНК на девяти локусах у двух опасных уголовных преступников, не являющихся родственниками; между тем, согласно ФБР, вероятность такого совпадения равна одному шансу из 113 миллиардов. Дальнейший поиск в других базах данных ДНК позволил выявить свыше тысячи пар людей с генетическими совпадениями на девяти и более локусах. Это может служить серьезным поводом к размышлению для правоохранительных органов и адвокатов. Пока же важный для нас урок заключается в том, что анализ ДНК, на который возлагаются столь большие надежды, хорош лишь настолько, насколько надежны значения вероятности, подкрепляющие его.
Зачастую бывает очень полезно знать вероятность одновременного наступления нескольких событий. Какова вероятность исчезновения электричества в сети и выхода из строя автономного генератора? Вероятность одновременного наступления двух независимых событий представляет собой произведение их соответствующих вероятностей. Другими словами, вероятность наступления события A и события B равна вероятности наступления события A, умноженной на вероятность наступления события B. Чтобы вам стало понятнее, приведу соответствующий пример. Если вероятность выпадания орла при однократном подбрасывании монетки составляет ½, то вероятность его выпадания при подбрасывании такой же монетки два раза подряд равняется ½ × ½ = ¼; три раза подряд – ⅛; четыре раза подряд – 1/16 и т. д. (Понятно, что вероятность выпадания решки при подбрасывании монетки четыре раза подряд также составляет 1/16.) Это объясняет, почему системный администратор в вашем учебном заведении или офисе постоянно напоминает вам о необходимости усложнить пароль. Если вы используете шестизначный пароль, состоящий только из цифр, мы можем подсчитать количество возможных паролей: 10 × 10 × 10 × 10 × 10 × 10, что равняется 106, или 1 000 000. На первый взгляд, количество комбинаций настолько велико, что угадать пароль сложно, однако компьютер проверит все эти 1 000 000 вариантов за какую-то долю секунды.
Допустим, системный администратор убеждает вас включить в пароль буквы. На данном этапе для каждого из шести разрядов имеется 36 комбинаций: 26 букв английского алфавита и 10 цифр. Итак, количество возможных паролей возрастает до 36 × 36 × 36 × 36 × 36 × 36, или 366, то есть свыше двух миллиардов. Если ваш системный администратор требует, чтобы пароль состоял из восьми цифр, и призывает использовать символы #, @, % и! как в Чикагском университете, то количество потенциальных паролей увеличивается до 468, то есть свыше 20 триллионов.
Здесь нужно сделать одно важное замечание. Эта формула применима только если события независимы; иными словами, когда исход одного события не оказывает влияния на исход другого события. Например, вероятность того, что в результате первого подбрасывания монетки выпадет орел, не влияет на вероятность исхода второго подбрасывания той же монетки. С другой стороны, вероятность того, что сегодня пойдет дождь, не независима от того, был ли он вчера, поскольку грозовые фронты могут сохраняться на протяжении нескольких дней. Аналогично, вероятность того, что сегодня ваш автомобиль попадет в аварию, и того, что он попадет в нее в следующем году, также не независимы друг от друга. То, что привело к аварии вашего автомобиля в этом году, может спровоцировать ДТП и в следующем году: возможно, вы склонны садиться за руль в нетрезвом состоянии, или вам нравится устраивать гонки на дороге, или строчить эсэмэски во время вождения; наконец, не исключено, что вы просто плохой водитель. (Именно поэтому после каждого очередного ДТП ваша страховая ставка повышается; дело не столько в желании страховой компании компенсировать деньги, выплаченные ею согласно страховому договору, сколько в том, что теперь она располагает новой информацией о вероятности вашего попадания в дорожно-транспортные происшествия в дальнейшем, поскольку – после того как вы, заезжая в гараж, сильно поцарапали свой автомобиль – такая вероятность повысилась.)
Допустим, вас интересует вероятность наступления одного (исхода A) или другого (исхода B) события (опять же предполагая, что они независимы). В этом случае вероятность наступления события A или B равна сумме их индивидуальных вероятностей, то есть вероятность A плюс вероятность B. Например, вероятность выпадания 1, 2 или 3 в результате подбрасывания одной игральной кости равняется сумме их отдельных вероятностей: 1/6 + 1/6 + 1/6 = 3/6 = ½. Это должно быть интуитивно понятно. При подбрасывании игральной кости есть шесть возможных исходов. Числа 1, 2 и 3 в совокупности составляют половину из них. Следовательно, вероятность выпадания 1, 2 или 3 вследствие подбрасывания одной игральной кости равняется 50 %. Если вы играете в кости в Лас-Вегасе, то вероятность выпадания 7 или 11 в результате однократного подбрасывания равна количеству комбинаций, составляющих в сумме 7 или 11, поделенному на общее число вариантов, которые могут выпасть в результате подбрасывания двух игральных костей, или 8/36.
Вероятность также позволяет подсчитать математическое ожидание – чрезвычайно полезный инструмент, используемый при принятии любых управленческих решений, особенно в сфере финансов. Математическое ожидание – это среднее значение случайной величины. Математическое ожидание, или отдача (функция выигрыша) от некоторого события, например покупки лотерейного билета, представляет собой сумму всех разных исходов, весовыми коэффициентами при каждом из которых являются вероятность исхода и выигрыш. Как обычно, приведем пример, чтобы прояснить смысл сказанного. Допустим, вам предложили сыграть в кости, причем подбрасывается только одна игральная кость. Функция выигрыша в этой игре такова: 1 доллар, если у вас выпадает 1; 2 доллара, если у вас выпадает 2; 3 доллара, если у вас выпадает 3 и т. д. Каково математическое ожидание в случае однократного подбрасывания игральной кости? Вероятность каждого из возможных исходов равняется 1/6, поэтому математическое ожидание вычисляется так:
⅙ ($1) + ⅙ ($2) + ⅙ ($3) + ⅙ ($4) + ⅙ ($5) + ⅙ ($6) = 21/6, или $3,50.
На первый взгляд, математическое ожидание 3,50 доллара кажется относительно бесполезной величиной. В конце концов, вы не можете фактически заработать 3,50 доллара в результате однократного подбрасывания игральной кости (так как ваш доход в любом случае должен равняться целому числу). На самом деле математическое ожидание представляет собой чрезвычайно мощный инструмент, поскольку он может сказать вам, является ли то или иное событие «справедливым», учитывая его цену и ожидаемый исход. Допустим, вам предлагают поучаствовать в описанной выше игре при ставке 3 доллара за каждое подбрасывание игральной кости. Имеет ли смысл соглашаться на такие условия? Да, поскольку математическое ожидание исхода (3,50 доллара) выше, чем стоимость игры (3,00 доллара). Это не означает, что вы обязательно заработаете деньги в результате однократного подбрасывания игральной кости, но помогает уяснить, на какой риск стоит пойти, а на какой – нет.
Этот гипотетический пример можно применить к профессиональному американскому футболу. Как указывалось ранее, после тачдауна команда может либо пробить и заработать дополнительное очко, либо попытаться выполнить двухочковую конверсию. Первый вариант предполагает такой удар по мячу с трехъярдовой линии, в результате которого мяч должен пройти между стойками ворот; второй вариант предполагает пробежку или передачу мяча в концевую зону с трехъярдовой линии, что значительно труднее. Команда может предпочесть более легкий вариант и заработать одно очко или выбрать более сложный вариант и заработать два очка. Как быть?
Возможно, статистики не играют в футбол и не назначают свиданий девушкам из группы поддержки, но они могут предоставить ценное статистическое руководство футбольным тренерам. Как указывалось ранее, вероятность выполнения удара после тачдауна равняется 0,94. Это означает, что математическое ожидание попытки заработать одно очко после тачдауна также составляет 0,94, поскольку оно равняется «доходу» (1 очко), умноженному на вероятность успеха (0,94). Никакая команда не может заработать 0,94 очка, но эта величина помогает оценить данный вариант действий после тачдауна в сравнении с альтернативным вариантом (двухочковой конверсией). Математическое ожидание в случает «погони за двумя очками» оказывается гораздо меньшим: 0,74. Да, «доход» выше (2 балла), но вероятность успеха существенно ниже (0,37). Очевидно, если играть осталось совсем немного и для победы команде требуются два очка, то ей не остается ничего другого, как попытать счастья с двухочковой конверсией. Но если цель команды – максимизация количества набранных очков, и она располагает для этого определенным запасом времени, то вариант с зарабатыванием одного очка для нее более приемлем.
Такой же базовый анализ может показать, почему не стоит покупать лотерейные билеты. В Иллинойсе вероятности, связанные с разными возможными выигрышами в лотерее, напечатаны на оборотной стороне каждого билета. Я купил за 1 доллар один билет мгновенной лотереи. (Интересно, облагается ли эта сумма налогом?) На его оборотной стороне напечатаны – микроскопическим шрифтом – шансы выиграть различные денежные призы или получить еще один такой же билет (бесплатно): 1 шанс из 10 (бесплатный лотерейный билет); 1 шанс из 15 (2 доллара); 1 шанс из 42,86 (4 доллара); 1 шанс из 75 (5 долларов) и т. д. вплоть до 1 шанс из 40 000 – 1000 долларов. Я подсчитал ожидаемый доход для моего билета мгновенной лотереи, сложив все возможные варианты выигрыша денежного приза с весовыми коэффициентами, равными вероятности выигрыша каждого из этих денежных призов. Оказалось, что ожидаемый доход для моего однодолларового лотерейного билета – примерно 0,56 доллара. Таким образом, покупка такого билета – абсолютно бездарный способ потратить 1 доллар. Как назло, я выиграл 2 доллара.
Несмотря на мой неожиданный выигрыш, я все равно считаю, что покупка билета мгновенной лотереи – абсолютная глупость. Это один из важнейших уроков теории вероятностей. Хорошие решения – если их оценивать вероятностями, которые за ними кроются, – в действительности могут оказаться не такими уж хорошими. А плохие решения – например, покупка билета мгновенной лотереи в Иллинойсе – не такими уж плохими, по крайней мере на коротком отрезке времени. Но в конечном счете вероятность все равно торжествует. Важная теорема, известная как закон больших чисел, гласит, что по мере возрастания количества испытаний средний результат исходов все сильнее приближается к его математическому ожиданию. Да, я выиграл 2 доллара, купив сегодня билет мгновенной лотереи. И мог бы еще раз выиграть 2 доллара завтра. Но если я куплю тысячи однодолларовых лотерейных билетов, каждый с ожидаемым доходом 0,56 доллара, то я почти наверняка останусь в проигрыше. К тому времени, когда я потрачу на покупку лотерейных билетов один миллион долларов, мой выигрыш составит сумму, очень близкую к 560 000 долларов.
Закон больших чисел объясняет, почему в долгосрочном периоде казино всегда выигрывают. Вероятности, связанные со всеми играми, которые практикуются в казино, благоприятствуют последнему (при условии, что казино способно помешать игрокам в блек-джек вычислять карты). Если в течение довольно продолжительного отрезка времени было сделано достаточное количество ставок, то казино обязательно получит больше, чем потеряет. Закон больших чисел также объясняет, почему вероятность того, что компания Joseph Schlitz Brewing Company добьется нужного ей результата, повышается при выполнении 100 слепых дегустаций, а не десяти. Взгляните на «функции плотности вероятности» для 10, 100 и 1000 слепых дегустаций пива. (Несмотря на свое мудреное название, функция плотности вероятности просто отображает упорядоченные исходы вдоль оси x и ожидаемую вероятность каждого исхода вдоль оси y; в сумме эти вероятности дают 1.) Как и ранее, я предполагаю, что каждая дегустация эквивалентна подбрасыванию монетки, а каждый дегустатор выбирает пиво Schlitz с вероятностью 0,5. Как видно из приведенных ниже графиков, по мере увеличения количества дегустаторов ожидаемый исход все больше сосредоточивается в области выбора пива Schlitz половиной (50 %) дегустаторов. В то же время вероятность получения исхода, который резко бы отклонялся от 50 %, по мере роста числа испытаний резко падает.

 

 

 

 

Ранее я говорил, что руководство компании Joseph Schlitz Brewing Company было бы радо, если бы в ходе сравнительной слепой дегустации не менее 40 % любителей пива Michelob выбрали пиво Schlitz. Приведенные ниже числа отражают вероятность достижения такого результата по мере увеличения количества дегустаторов:
10 дегустаторов: 0,83
100 дегустаторов: 0,98
1000 дегустаторов: 0,9999999999
1 000 000 дегустаторов: 1
Сейчас интуиция должна подсказать вам смысл, заложенный в подзаголовке этой главы: «Не покупайте расширенную гарантию для своего 99-долларового принтера». Ладно, возможно, пока этот смысл для вас еще неочевиден. Вернемся к одному из предыдущих примеров. Вся страховая отрасль построена на вероятностях. (А гарантийное обязательство – одна из форм страхования.) Когда вы страхуете что-либо, вы заключаете договор на получение определенной компенсации при наступлении четко оговоренных обстоятельств. Например, страховка вашего автомобиля может предусматривать его замену в случае, если он будет украден или врежется в дерево. В обмен на эту гарантию вы соглашаетесь выплачивать определенную сумму за период, на который застраховали свое авто. Основная идея страхования заключается в том, что в обмен на регулярные и предсказуемые выплаты вы переносите на соответствующую страховую компанию риск того, что ваш автомобиль может быть похищен, или попасть в аварию, или даже прийти в полную негодность по причине вашего неумения хорошо водить.
Почему страховые компании готовы взять на себя такие риски? Потому что в долгосрочном периоде они заработают большие прибыли – если, конечно, правильно рассчитают величину своих страховых взносов. Разумеется, какие-то из автомобилей, застрахованных компанией Allstate Corporation, будут украдены. Другие придут в полную негодность, после того как их владельцы наедут, к примеру, на пожарный гидрант, как одна из моих старых приятельниц. (Кроме того, ей пришлось возместить полную стоимость устройства, что, между прочим, оказалось гораздо дороже, чем вы могли подумать.) Однако с большинством автомобилей, застрахованных Allstate Corporation или какой-либо другой компанией, серьезных неприятностей не случится. Чтобы получить прибыль, страховой компании нужно лишь позаботиться о том, чтобы сумма страховых взносов превышала возможные страховые выплаты. А для этого страховая компания должна иметь четкое представление о том, что в страховой отрасли принято называть «ожидаемыми потерями» на каждый страховой полис. Это в точности такая же концепция, что и математическое ожидание, но со «страховым уклоном». Если ваш автомобиль застрахован на 40 000 долларов, а вероятность того, что он будет украден в любом данном году, равняется 1 шансу из 1000, то годовые ожидаемые потери на ваш автомобиль составят 40 долларов. Величина годового страхового взноса для той части страхового покрытия, которая относится к угону автомобиля, должна быть больше 40 долларов. С этого момента страховая компания ничем, по сути, не отличается от казино или мгновенной лотереи в Иллинойсе. Да, иногда ей придется выплачивать определенные суммы по страховым претензиям, но в долгосрочной перспективе поступления обязательно превысят эти выплаты.
Как потребитель, вы должны отдавать себе отчет, что в длительном периоде страховка не сэкономит вам деньги. Единственное, что она может для вас сделать, это предотвратить некоторые неприемлемо высокие убытки, компенсировав, например, потерю угнанного автомобиля стоимостью 40 000 долларов или сгоревшего дома за 350 000 долларов. Покупка страхового полиса с точки зрения статистики – «неудачная ставка», поскольку вы заплатите страховой компании в среднем больше, чем от нее получите. Тем не менее это все же вполне разумный способ защиты от исходов, которые в противном случае могли бы вас просто разорить. По иронии судьбы такие богачи, как Уоррен Баффет, могут сэкономить на страховке автомобиля, жилья или даже здоровья, потому что миллиардеры могут себе позволить практически любые несчастья, которые приключаются с людьми.
И вот тут мы наконец возвращаемся к пресловутому принтеру за 99 долларов. Предположим, вы купили замечательный новый лазерный принтер в какой-либо солидной торговой сети, например в Best Buy. Когда вы подходите к кассовому аппарату, чтобы рассчитаться за покупку, продавец-консультант предлагает вам ряд вариантов продленного срока гарантии. Если вы заплатите дополнительно 25 или 50 долларов, Best Buy починит или заменит ваш принтер в случае его поломки в ближайшие год-два. Зная основы теории вероятностей, страхового дела и экономики, вы должны сразу же сделать следующие выводы: 1) Best Buy – коммерческая организация, которая стремится максимизировать свою прибыль; 2) продавец-консультант пытается навязать вам какой-либо из вариантов продленного срока гарантии; 3) исходя из пунктов 1) и 2) вы можете заключить, что стоимость такой гарантии будет выше, чем ожидаемая стоимость ремонта принтера для Best Buy (если бы это было не так, Best Buy вряд ли столь настойчиво вас бы уговаривала); 4) если ваш принтер за 99 долларов поломается и вам придется платить за его ремонт из собственного кармана, это никаким особым образом не повлияет на вашу жизнь.
В среднем вы заплатите за продление гарантийного срока больше, чем пришлось бы выложить за ремонт принтера. Более универсальный урок – и один из основополагающих в деле личных финансов – заключается в том, что вы всегда должны страховать себя от любых неблагоприятных обстоятельств, которые могут внести существенный дискомфорт в вашу жизнь. Застраховываться от всего остального не имеет смысла.
Математическое ожидание также может помочь в принятии сложных решений, которые обусловливаются многими обстоятельствами в разные моменты времени. Допустим, кто-то из друзей попросил вас инвестировать один миллион долларов в исследовательский проект, связанный с разработкой новейшего средства от облысения. Вы, скорее всего, поинтересуетесь, каковы шансы проекта на успех, и получите весьма неоднозначный ответ. Так как речь идет об исследовательском проекте, вероятность того, что ученым удастся найти эффективное средство от облысения, составляет лишь 30 %. В случае неудачи вам вернут только 250 000 долларов от вложенного миллиона, поскольку именно такая сумма была зарезервирована для вывода нового средства на рынок (тестирование, маркетинг и т. п.). Даже если исследователи добьются успеха, существует лишь 60-процентная вероятность того, что Управление по санитарному надзору за качеством пищевых продуктов и медикаментов США одобрит это чудодейственное средство для медицинского применения. Но даже в том случае, если средство не только окажется эффективным, но и будет признано как безопасное для человека, существует 10-процентная вероятность того, что кто-либо из конкурентов предложит примерно в то же время еще более эффективный препарат, что лишит вас каких-либо надежд на получение прибыли. Но если удача будет во всем вам сопутствовать (ваше средство против облысения окажется эффективным и безопасным для человека, а ваши конкуренты не предложат ничего лучшего), оптимальная оценка доходности инвестиций составит 25 миллионов долларов.
Итак, имеет ли смысл вкладывать один миллион долларов в этот исследовательский проект?
Информация, которой вы располагаете, кажется весьма запутанной. Потенциальный доход выглядит довольно внушительно – в 25 раз больше вложенного капитала, – но и количество возможных ловушек велико. Эту информацию можно представить в виде дерева решений, которое – если вероятности, связанные с каждым исходом, соответствуют действительности, – даст вам вероятностную оценку того, как вам следует поступить. На дереве решений отображается каждый источник неопределенности, а также вероятности, связанные со всеми возможными исходами. Конец дерева указывает все возможные доходы, а также вероятность получения каждого из них. Если каждый такой доход умножить на весовой коэффициент, который равняется вероятности соответствующего дохода, и просуммировать все возможности, то мы получим математическое ожидание данной инвестиционной возможности. Как обычно, схематическое изображение способствует лучшему пониманию.

 

 

Эта конкретная возможность имеет привлекательное математическое ожидание. Величина ожидаемого дохода, полученная в результате суммирования всех возможных доходов с учетом их весовых коэффициентов, равняется 4,225 миллионов долларов. Тем не менее решение сделать такую инвестицию в исследовательский проект может оказаться не самым мудрым, если речь идет о вложении денег, накопленных вами на обучение детей в колледже. Дерево решений позволяет вам узнать, что ваш ожидаемый доход существенно выше суммы, которую вам предлагается инвестировать в данный проект. С другой стороны, наиболее вероятный исход – что исследователям не удастся изобрести новое средство от облысения и вам вернут лишь 250 000 долларов. Ваша готовность к такой инвестиции может зависеть от вашей склонности к риску. Из закона больших чисел следует, что любая инвестиционная фирма или богатый человек вроде Уоррена Баффета должны выискивать сотни возможностей наподобие этой, с неопределенными исходами, но привлекательными величинами ожидаемой прибыли. Некоторые из них сработают; большинство наверняка нет. В среднем такие инвесторы заработают немало – точно так же как страховая компания или казино. Если величина ожидаемого дохода кажется вам привлекательной, то желательно, чтобы количество попыток было как можно большим.
Аналогичный базовый процесс можно использовать для объяснения явления, которое на первый взгляд противоречит здравому смыслу. Иногда нет смысла проводить обследование всего населения с целью выявления какого-либо редкого, но серьезного заболевания, такого, скажем, как СПИД. Допустим, тестирование на какое-то редкое заболевание отличается высокой степенью точности. Предположим, что эта болезнь поражает одного из каждых 100 000 взрослых, а точность ее диагностирования составляет 99,9999 %. Тест никогда не дает ложного отрицательного результата (то есть не пропускает человека, страдающего таким заболеванием); однако примерно в одном из 10 000 тестов, проведенных на здоровом человеке, будет зафиксирован ложный положительный результат (то есть тест укажет на наличие у человека данного заболевания, хотя на самом деле этот человек здоров). Парадоксальная особенность здесь состоит в том, что несмотря на впечатляющую точность теста, большинство людей с положительным результатом тестирования в действительности оказываются не больны. Но такой предварительный диагноз вызовет у них сильнейшей стресс, пока не выяснится, что он ложный; кроме того, это может обусловить напрасное расходование средств на проведение повторных тестов и лечение людей, которые в действительности здоровы.
Если мы подвергнем тестированию все взрослое население Соединенных Штатов, то есть приблизительно 175 миллионов человек, то дерево решений примет следующий вид:

 

 

Итак, только 1750 человек страдают этим заболеванием. У всех положительный результат теста. У остальных 174 с лишним миллионов взрослых этой болезни не выявлено. Для 99,9999 % протестированных результат был определен правильно: они здоровы. Ложный положительный результат получили всего 0,0001 % человек. Однако 0,0001 % от 174 миллионов все же достаточно большое число. По сути, это в среднем 17 500 человек.
Попытаемся проанализировать, что это означает. В общей сложности 19 250 человек уведомляются о том, что они страдают данным заболеванием, и лишь 9 % из них в действительности больны! А ведь речь идет о тесте с очень невысокой долей ложных положительных результатов. Не слишком отклоняясь от обсуждаемой темы, я привел этот пример, чтобы дать вам некоторое представление о том, почему методы сдерживания затрат в системе здравоохранения иногда предусматривают проведение обследования главным образом среди групп повышенного риска заболевания, а не среди здорового населения. В случае таких заболеваний, как ВИЧ/СПИД, представители государственной системы здравоохранения зачастую рекомендуют обследовать группы повышенного риска, например гомосексуалистов или наркоманов.
* * *
Иногда вероятность сигнализирует нам об опасных ситуациях. В главе 1 рассказывалось о проблеме манипуляций со стандартизованными тестами и об одной из фирм, которая пыталась выявлять такие случаи, Caveon Test Security. Комиссия по ценным бумагам и биржам (Securities and Exchange Commission – SEC), государственное агентство, отвечающее за практическую реализацию федеральных законов, касающихся торговли ценными бумагами, применяет аналогичную методологию для обнаружения трейдеров-инсайдеров. (Инсайдерская торговля ценными бумагами связана с незаконным использованием конфиденциальной информации, такой как, скажем, знание юридической фирмой о предстоящем поглощении для торговли акциями и другими ценными бумагами компаний, участвующих в данном процессе.) SEC использует мощные компьютеры для анализа сотен миллионов операций купли-продажи ценных бумаг с целью выявления подозрительной активности, например крупной покупки акций компании непосредственно перед объявлением о ее поглощении или массовом «сбросе» акций компании буквально перед ее заявлением о резком сокращении прибыли. SEC также расследует деятельность инвестиционных менеджеров с необычайно высокими прибылями на протяжении длительных периодов времени. (Как экономическая теория, так и исторические данные свидетельствуют, что отдельно взятому инвестору чрезвычайно трудно год за годом получать прибыль выше среднего уровня.) Разумеется, дальновидные инвесторы всегда пытаются прогнозировать хорошие и плохие новости и разрабатывать законные стратегии, которые позволяли бы неизменно достигать результата выше рыночного. Чтобы быть хорошим инвестором, вовсе не обязательно вступать в конфликт с законом. Как компьютер улавливает разницу между удачливыми инвесторами, действующими в рамках закона, и удачливыми инвесторами, преступившими закон? Я несколько раз звонил в отдел правоприменения SEC, чтобы выяснить это, однако сотрудники SEC не пожелали делиться со мной своими секретами.
В фильме 2002 года Minority Report Том Круз играет детектива, предотвращающего преступления. Его герой является сотрудником некоего бюро, которое использует определенную технологию для прогнозирования преступлений еще до того, как они будут совершены.
Нет, дорогие читатели, это уже не фантастика. В 2011 году в газете The New York Times вышла статья под заголовком: «Полиция прибывает на место до совершения преступления». В ней рассказывалось, что специальная компьютерная программа предсказала высокую вероятность совершения краж из автомобилей в этот день на подземной парковке, расположенной в деловом районе города Санта-Круз. Когда туда приехали детективы, они обнаружили двух женщин, слишком уж пристально всматривающихся в окна автомобилей. Одна из них уже неоднократно задерживалась за воровство, а у другой нашли запрещенные наркотики.
Система, использовавшаяся в Санта-Круз, была разработана двумя математиками, антропологом и криминалистом. Отдел полиции в Чикаго создал у себя целое подразделение аналитиков-прогнозистов. Частично его формирование объяснялось тем, что банды, терроризировавшие город, действовали по определенным шаблонам. Книга Data Mining and Predictive Analysis: Intelligence Gathering and Crime Analysis, руководство по статистике для правоприменения, начинается со следующего бодрого заявления: «Теперь можно составлять прогноз в отношении уголовных преступлений; например выявлять тенденции развития преступности, прогнозировать “горячие точки”совершения преступлений, уточнять решения, касающиеся выделения ресурсов на те или иные цели, и обеспечивать максимальную защиту граждан наиболее эффективными способами». (Обратите внимание: я ознакомился со всей этой информацией, чтобы кратко изложить ее для вас и сэкономить вам таким образом время.)
«Прогнозная полиция» является частью более широкого движения, которое называется «предиктивным анализом». Уголовные преступления всегда включают в себя элемент неопределенности: вы никогда не сможете сказать заранее, кто разобьет ваш автомобиль или не выполнит обязательств по вашей ипотеке. Вероятность помогает нам ориентироваться в таких рисках. А информация позволяет уточнить понимание соответствующих вероятностей. Компании, сталкивающиеся в своей деятельности с неопределенностью, всегда пытаются получить количественную оценку рисков. Кредиторы интересуются такими вещами, как реальный доход получателя кредита и его кредитный рейтинг. Однако эти несовершенные кредитные инструменты все больше напоминают нам некий эквивалент каменных орудий пещерного человека. Сочетание огромных объемов цифровых данных и дешевой вычислительной мощности позволяет нам гораздо лучше понимать поведение человека. Представители страховых компаний правильно описывают свой бизнес как «передача риска» – и поэтому им следует как можно точнее оценивать риски, переносимые на них. Особенности бизнеса, которым занимаются такие компании, как Allstate Corporation, заставляют их обращать самое пристальное внимание на вещи, которые стороннему наблюдателю могли бы показаться ничего не значащими случайностями:
• в дорожно-транспортные происшествия со смертельным исходом чаще всего попадают водители в возрасте от двадцати до двадцати четырех лет;
• в штате Иллинойс чаще всего угоняют автомобили марки Honda Civic (а в штате Алабама – полноразмерные пикапы Chevrolet);
• хотя законом запрещена отправка SMS во время вождения, поскольку это часто приводит к ДТП, водителей это не останавливает. Более того, подобные законы могут даже усугублять ситуацию, заставляя водителей прятать мобильные телефоны и в результате отвлекаться от дороги во время набора сообщения.

 

Компании, выпускающие кредитные карточки, находятся на переднем крае такого анализа, поскольку они знают наши личные данные и покупательские привычки, а их модель ведения бизнеса сильно зависит от умения находить клиентов, кредитный риск (то есть риск неплатежа) которых сравнительно невелик. (Идеальные клиенты с точки зрения кредитного риска, как правило, расточительны, так как каждый месяц полностью оплачивают свои счета; клиенты, располагающие крупными балансами с высокими процентными ставками, генерируют солидные прибыли – пока не окажутся неплатежеспособными.) Одно из самых интересных исследований того, кто, скорее всего, оплатит счет, а кто нет, было выполнено Дж. П. Мартином, любителем математики и одним из сотрудников компании Canadian Tire, крупной сети розничной торговли, специализирующейся на продаже широкого спектра автозапчастей и автомобильных аксессуаров, а также ряда других товаров. Когда Мартин проанализировал каждую транзакцию, выполненную с помощью кредитной карточки Canadian Tire за предыдущий год, оказалось, что покупки, совершенные клиентами в прошлом, являются весьма точным предиктором их будущего «покупательского» поведения, если использовать этот показатель в сочетании с такими традиционными инструментами, как величина дохода и кредитная история.
Статья в The New York Times, озаглавленная «Что знает о вас компания, выпустившая вашу кредитную карточку?», содержала описание некоторых из самых интересных выводов Мартина: «Люди, которые покупают дешевые непатентованные моторные масла, с гораздо большей вероятностью уклонятся от платежей по кредитным карточкам, чем те, кто предпочитает дорогостоящие фирменные товары. Те, кто покупает датчики угарного газа для дома или мягкие войлочные подкладки для ножек стульев и табуреток, чтобы не царапать пол в комнате, почти никогда не увиливают от платежей. Практически каждый, кто купил какой-либо из дешевых автомобильных аксессуаров, впоследствии с большой долей вероятности не оплатит свой счет».
* * *
Теория вероятностей предоставляет нам инструменты для борьбы с неопределенностями жизни. Не стоит играть в лотерею. Но имеет смысл инвестировать в рынок ценных бумаг, если у вас длинный инвестиционный горизонт (поскольку доход от акций, как правило, достигает своих максимальных значений в долгосрочном периоде). Что же касается страхования, то здесь все зависит от того, что именно вы собираетесь застраховать. Учет фактора вероятности может даже помочь вам увеличить выигрыши в игровых шоу (я попытаюсь продемонстрировать это в следующей главе).
С учетом вышесказанного (точнее говоря, написанного) концепция вероятности не является детерминистской. Да, от покупки лотерейных билетов следует воздержаться – тем не менее, купив лотерейный билет, вы можете выиграть деньги. Да, теория вероятностей может помочь нам поймать мошенников и уголовных преступников, но в случае ее неаккуратного использования за решеткой могут оказаться ни в чем не повинные люди. Все эти вопросы мы обсудим в главе 6.
Назад: Приложение к главе 4
Дальше: 5½. Загадка Монти Холла