Книга: Байесовская статистика: Star Wars, LEGO, резиновые уточки и многое другое
Назад: 11. Измерение разброса данных
Дальше: 13. Инструменты оценки параметров: PDF, CDF и квантильная функция

12. Нормальное распределение

В предыдущих двух главах вы узнали об очень важных понятиях: среднее значение (μ), которое позволяет оценивать измерения по различным наблюдениям, и стандартное отклонение (σ), которое позволяет измерять разброс наблюдений. Каждое понятие полезно уже само по себе, но вместе они сила: их можно использовать в качестве параметров для наиболее известного распределения вероятностей из всех — нормального распределения.

В этой главе вы узнаете, как использовать нормальное распределение для определения точной вероятности степени уверенности в том, что одна оценка окажется верной по сравнению с другими. Истинная цель оценки параметров заключается не просто в оценке значения, а в том, чтобы ­назначить вероятность для диапазона возможных значений. Это позволяет проводить более сложные рассуждения с неопределенными значениями.

В предыдущей главе мы установили, что вычисление среднего значения является надежным методом оценки неизвестного значения на основе существующих данных и что стандартное отклонение можно использовать для измерения разброса этих данных. Измеряя разброс наблюдений, можно определить, насколько мы уверены в средних значениях. Чем больше разбросаны наблюдения, тем меньше мы уверены в своих силах. Нормальное распределение позволяет точно определить, насколько мы уверены в различных убеждениях, принимая во внимание наблюдения.

Зажигательные шнуры для гадких делишек

Представьте, что усатый мультяшный злодей хочет бросить бомбу, чтобы взорвать стену в банковском хранилище. К сожалению, у него всего одна бомба, но довольно большая. Он знает, что если отойдет от бомбы на 200 футов (60 мет­ров), то окажется в безопасности. Бег до укрытия занимает 18 секунд. Если злодей не успеет добежать, то рискует жизнью.

У него только одна бомба и шесть зажигательных шнуров одинакового размера, поэтому он решает проверить пять из шести шнуров, оставив последний для бомбы. Все шнуры одинаковой длины, и для их поджигания требуется одинаковое количество времени. Злодей поджигает каждый шнур и измеряет, сколько нужно времени, пока шнуры полностью не прогорят, чтобы убедиться, что у него есть 18 секунд для побега. Конечно, спешка приводит к противоречивым измерениям. Вот время, которое он записал (в секундах) для каждого перегоревшего шнура: 19, 22, 20, 19, 23.

Пока все хорошо: ни один из шнуров не сгорает раньше чем за 18 секунд. Вычисление среднего дает нам μ = 20,6, а стандартного отклонения — σ= 1,62.

Теперь нужно определить конкретную вероятность того, что предохранитель сработает менее чем за 18 секунд. Поскольку злодей дорожит своей жизнью даже больше, чем деньгами, то хочет быть на 99,9 % уверен, что переживет взрыв. Иначе он даже не станет пытаться грабить банк.

Из главы 10 мы знаем, что среднее значение является хорошей оценкой истинного значения с учетом набора измерений, но способа выразить, насколько сильно мы считаем это значение истинным, мы пока не нашли.

Из главы 11 мы также знаем, что можно количественно оценить, насколько разбросаны наблюдения, рассчитав стандартное отклонение. Кажется закономерным, что это поможет выяснить, насколько вероятны альтернативы среднему значению. Предположим, что вы уронили стакан и он разбился вдребезги. В зависимости от того, как разлетелись осколки, возможно, вам придется убрать и в соседней комнате. Если осколки находятся близко друг к другу (рис. 12.1), то, скорее всего, другую комнату убирать не придется.

471717.png 

Рис. 12.1. Когда осколки расположены близко друг к другу, вы знаете, где нужно убраться

Но если осколки раскиданы так, как на рис. 12.2, то стоит проверить другую комнату. Так и у злодея со шнуром: если значения времени сгорания фитиля сильно разбросаны, несмотря на то что сгорающих быстрее чем за 18 секунд шнуров не обнаружено, вполне вероятно, что какой-то шнур все еще может сгореть менее чем за 18 секунд.

471739.png 

Рис. 12.2. Когда осколки разбросаны, вы точно не знаете, где они могут находиться

Когда наблюдения визуально разбросаны, мы интуитивно чувствуем, что в крайних пределах видимости могут быть и другие значения. Также мы менее уверены в том, где именно находится центр разброса. В примере со стаканом точно не понятно, куда упали осколки, если вы сами не видели падение и осколки разлетелись.

Можно количественно определить эту интуицию с помощью наиболее изученного и известного распределения вероятностей: нормального распределения.

Нормальное распределение

Нормальное распределение — это непрерывное распределение вероятностей (например, бета-распределение в главе 5), которое наилучшим образом описывает силу возможных убеждений в значении неопределенного измерения, учитывая известное среднее значение и стандартное отклонение. Оно принимает значения μ и σ (среднее значение и стандартное отклонение соответственно) в качестве двух параметров. Нормальное распределение с μ = 0 и 481798.png= 1 имеет форму колокола, как показано на рис. 12.3.

458802.png 

Рис. 12.3. Нормальное распределение с μ = 0 и 481801.png= 1

Как видите, центр нормального распределения — это среднее значение. Ширина нормального распределения определяется его стандартным отклонением. На рис. 12.4 и 12.5 показаны нормальные распределения с μ = 0 и σ= 0,5 и 2 соответственно.

По мере того как стандартное отклонение уменьшается, уменьшается и ширина нормального распределения.

Как уже говорилось, нормальное распределение отражает то, насколько сильно мы верим в среднее значение. Таким образом, если наши наблюдения разбросаны сильнее, мы верим в более широкий диапазон возможных значений и меньше доверяем среднему значению. И наоборот, если все наши наблюдения более или менее одинаковы (имеется в виду небольшое σ), мы считаем оценку довольно точной.

458819.png 

Рис. 12.4. Нормальное распределение с μ = 0 и 481808.png= 0,5

458832.png 

Рис. 12.5. Нормальное распределение с μ = 0 и 481805.png= 2

Когда единственное, что мы знаем о проблеме, — это среднее значение и стандартное отклонение наблюдаемых данных, то нормальное распределение является наиболее достоверным представлением состояния убеждений.

Решение задачи с зажигательным шнуром

Вернемся к исходной задаче. Имеется нормальное распределение с μ = 20,6 и σ= 1,62. Мы ничего не знаем о свойствах зажигательных шнуров, кроме зарегистрированного времени сгорания, поэтому можем моделировать данные с нормальным распределением, используя наблюдаемое среднее значение и стандартное отклонение (рис. 12.6).

458858.png 

Рис. 12.6. Нормальное распределение с μ = 20,6 и 481803.png= 1,62

Нужно ответить на вопрос: учитывая наблюдаемые данные, какова вероятность того, что шнур сгорит в течение 18 секунд или за меньшее время? Воспользуемся функцией плотности вероятности (probability density function, PDF), это концепция, о которой вы впервые узнали в главе 5. PDF для нормального распределения такая:

Eqn0103.tif.

Чтобы получить вероятность, нужно интегрировать эту функцию по значениям, меньшим чем 18:

Eqn0104.tif.

Интегрирование можно представить как простое взятие области под кривой для отрезка, который вас интересует (рис. 12.7).

458886.png 

Рис. 12.7. Интересующая нас область под кривой

Закрашенная область представляет собой вероятность того, что шнур прогорит за 18 секунд или меньше, учитывая проведенные наблюдения. Обратите внимание, что хотя ни одно из наблюдаемых значений не было меньше 18, из-за разброса наблюдений нормальное распределение на рис. 12.6 показывает, что появление значения 18 или меньше все еще возможно. Интегрируя по всем значениям меньше 18, мы можем рассчитать вероятность того, что зажигательный шнур не продержится так долго, как нужно злодею.

Интегрирование этой функции вручную — непростая задача. К счастью, есть язык R, который все сделает за нас.

Но для начала нужно определить, с какого числа начать интегрирование. Нормальное распределение определяется в диапазоне всех возможных значений от минус бесконечности (–∞) до бесконечности (∞). Итак, теоретически нужно получить следующее:

Eqn0105.tif.

Очевидно, что мы не можем интегрировать функцию из минус бесконечности на компьютере! К счастью, как можно увидеть на рис. 12.6 и 12.7, функция плотности вероятности очень быстро становится чрезвычайно малым значением. Можно заметить, что линия в PDF почти плоская на значении 10, а это означает, что в данной области практически нет вероятности, поэтому можно просто интегрировать от 10 до 18. Мы могли бы также выбрать более низкое значение, например 0, потому что в этой области действительно нет вероятности, но это не изменит наш результат каким-либо значимым образом. В следующем разделе мы обсудим эвристику, которая облегчает выбор нижней или верхней границы.

Интегрируем эту функцию с помощью методов integrate() в R и dnorm() (который является функцией R для PDF с нормальным распределением), вычисляя PDF нормального распределения следующим образом:

integrate(function(x) dnorm(x, mean=20,6, sd=1,62), 10, 18)

0,05425369 с абсолютной погрешностью < 3e-11.

Округлив значение, видно, что P (время сгорания < 18) = 0,05. Это говорит о пятипроцентной вероятности того, что шнур сгорит меньше чем за 18 секунд. Наш злодей ценит свою жизнь и грабить банк станет, только если на 99,9 % уверен, что сможет избежать взрыва. Так что сегодня банк в безопасности!

Сила нормального распределения заключается в том, что мы можем рассуждать вероятностно о широком диапазоне возможных альтернатив среднему значению, что дает представление о том, насколько реалистичным является среднее значение. Можно использовать нормальное распределение в любое время, когда нужно рассуждать о данных, для которых известно только среднее значение и стандартное отклонение.

Но здесь заключается и опасность нормального распределения. Если у вас есть информация о проблеме, кроме среднего значения и стандартного отклонения, обычно стоит ее использовать. Пример показан в следующем разделе.

Немного хитрости и интуиции

Хотя R значительно упрощает интегрирование нормального распределения по сравнению с попытками взять интеграл вручную, есть полезная фишка, которая может еще больше упростить положение вещей при работе с нормальным распределением. Для любого нормального распределения с известным средним значением и стандартным отклонением можно оценить площадь под кривой вокруг μ в терминах σ.

Например, площадь под кривой для диапазона от μ – σ (одно стандартное отклонение меньше среднего) до μ + σ (одно стандартное отклонение больше среднего) содержит 68 % массы распределения.

Это означает, что 68 % возможных значений находятся в пределах ± одного стандартного отклонения от среднего значения, как показано на рис. 12.8.

458903.png 

Рис. 12.8. 68 % плотности вероятности (площадь под кривой) лежит между одним стандартным отклонением от среднего значения в любом направлении

Можно продолжить, увеличив расстояние от среднего на отрезки, кратные σ. В табл. 12.1 даны вероятности для этих областей.

Таблица 12.1. Области под кривой для различных средних значений

Расстояние от среднего значения

Вероятность

σ

68 %

2481810.png

95 %

3481812.png

99,7 %

Эта хитрость полезна для быстрой оценки вероятности значения даже для небольшой выборки. Все, что вам нужно, — это калькулятор, чтобы легко вычислить μ и σ. Это значит, что вы можете делать довольно точные оценки, выполнив только половину измерений!

Например, при измерении глубины снежного покрова в задачах главы 10 у нас были следующие измерения: 6,2; 4,5; 5,7; 7,6; 5,3; 8,0; 6,9. Для этих измерений среднее значение составляет 6,31, а стандартное отклонение — 1,17. Это означает, что мы можем быть на 95 % уверены, что истинное значение глубины снежного покрова было где-то между 3,97 дюйма (6,31 – 2 × 1,17) и 8,65 дюйма (6,31 + 2 × 1,17). Не нужно вручную вычислять интеграл или нагружать компьютер, чтобы использовать R!

Даже прииспользованииR этот прием может быть полезен для определения минимального или максимального значения пределов интегрирования. Например, если нужно узнать вероятность того, что зажигательный шнур бомбы злодея продержится дольше 21 секунды, не нужно интегрировать от 21 до бесконечности. Что использовать в качестве верхней границы? Можно интегрировать от 21 до 25,46 (что составляет 20,6 + 3 × 1,62) — это три стандартных отклонения от среднего значения. Три стандартных отклонения от среднего значения будут составлять 99,7 % от общей вероятности. Остальные 0,3 % лежат по обе стороны от распределения, поэтому только половина этого, 0,15 % от плотности вероятности, находится в области, превышающей 25,46. Так что если мы проведем интегрирование в пределах от 21 до 25,46, то упустим лишь небольшую вероятность в результате. Ясно, что можно было бы легко использовать R для интегрирования от 21 до чего-то действительно безопасного, например 30, но этот трюк позволяет выяснить, что такое «действительно безопасный».

События «n сигм»

Наверняка вы слышали о событии, описываемом в терминах событий сигм, например «падение цены акций было событием в восемь сигм». Это выражение означает, что наблюдаемые данные представляют собой восемь стандартных отклонений от среднего значения. Мы наблюдали прогрессирование одного, двух и трех стандартных отклонений от среднего значения в табл. 12.1, которые составляли значения 68, 95 и 99,7 % соответственно.

Исходя из этого легко догадаться, что событие с восьмью сигмами должно быть крайне маловероятным. Фактически, если вы наблюдаете данные, которые на пять стандартных отклонений отдалены от среднего значения, это, вероятно, является хорошим признаком того, что нормальное распределение не моделирует базовые данные точно.

В качестве примера растущей редкости возникновения события по мере его возрастания на n сигм предположим, что вы рассматриваете события, которые можете наблюдать в этот день. Некоторые очень распространены, например проснуться до восхода солнца. Другие встречаются реже, например проснуться в день рождения.

Таблица 12.2 показывает, сколько дней потребуется, чтобы ожидать увеличения события на одну сигму.

Таблица 12.2. Редкость события по мере его увеличения на n сигм

(- / +) Отклонение от среднего значения

Ожидается каждый (-е)

σ

3 дня

2481814.png

3 недели

3481816.png

Год

4481819.png

4 десятилетия

5481821.png

5 тысячелетий

6481823.png

1,4 миллиона лет

Таким образом, событие трех сигм — вы просыпаетесь и понимаете, что сегодня ваш день рождения, а событие шести сигм — вы просыпаетесь и понимаете, что на Землю летит  гигантский астероид!

Бета-распределение и нормальное распределение

Из главы 5 вы помните, что бета-распределение позволяет оценить истинную вероятность с учетом  наблюдения α желаемых результатов и β нежелательных, где общее количество результатов составляет α + β. Можно не согласиться с тем, что нормальное распределение является действительно лучшим методом моделирования оценки параметров, учитывая, что мы знаем только среднее значение и стандартное отклонение любого заданного набора данных. В конце концов, можно было бы описать ситуацию, когда α= 3 и β= 4, просто наблюдая три значения 1 и четыре значения 0. Это даст нам μ = 0,43 и σ= 0,53. Затем можно сравнить бета-распределение при α= 3 и β= 4 с нормальным распределением при μ = 0,43 и σ= 0,53, как показано на рис. 12.9.

458951.png 

Рис. 12.9. Сравнение бета-распределения с нормальным распределением

Понятно, что эти распределения совершенно разные. Для обоих распределений центр масс появляется примерно в одном и том же месте, но границы нормального распределения выходят далеко за пределы нашего графика. Здесь скрыт ключевой момент: только когда вы ничего не знаете о данных, кроме их среднего значения и дисперсии, безопасно предполагать нормальное распределение.

Для бета-распределения мы знаем, что искомое значение должно лежать в диапазоне от 0 до 1. Нормальное распределение определяется от –∞ до ∞ и часто включает значения, которые не могут существовать. Тем не менее в большинстве случаев это не является практически важным, поскольку такие измерения почти невозможны в вероятностных терминах. Но для нашего примера измерения вероятности наступления события эта недостающая информация важна для моделирования проблемы.

Хотя нормальное распределение и является очень мощным инструментом, оно не заменяет необходимости сбора дополнительной информации о проблеме.

Заключение

Нормальное распределение является продолжением использования среднего значения для оценки числа, полученного из наблюдений. Нормальное распределение объединяет среднее значение и стандартное отклонение, чтобы смоделировать, насколько наши наблюдения отличаются от среднего значения. Это важно, потому что это позволяет рассуждать об ошибке в измерениях вероятностным способом. Мы не только можем использовать среднее значение, чтобы сделать лучшее предположение, но и можем сделать вероятностные заявления о диапазонах возможных значений для оценки.

Упражнения

Для закрепления темы нормального распределения попробуйте ответить на эти вопросы.

1. Какова вероятность наблюдения значения на пять сигм большего или меньшего, чем среднее значение?

2. Лихорадка — это любая температура выше 100,4 градуса по шкале Фаренгейта. Учитывая следующие измерения, какова вероятность того, что у пациента жар?

100,0; 99,8; 101,0; 100,5; 99,7.

3. Предположим, что в главе 11 мы попытались измерить глубину колодца по времени падения монет и получили следующие значения:

2,5, 3, 3,5, 4, 2.

Расстояние, на которое падает объект, может быть рассчитано (в метрах) по следующей формуле:

расстояние = 1/2 ×G× время2,

где G составляет 9,8 м/с(м/с). Какова вероятность того, что глубина колодца превышает 500 метров?

4. Какова вероятность того, что колодца нет (то есть колодец имеет фактическую глубину 0 метров)? Вы заметите, что вероятность выше, чем можно было бы ожидать, учитывая наблюдения, что колодец есть. Есть два хороших объяснения того, что эта вероятность выше, чем должна быть. Во-первых, нормальное распределение является плохой моделью для измерений; во-вторых, при составлении чисел для примера я выбрал значения, которые вы вряд ли увидите в реальной жизни. Что для вас более вероятно?

Назад: 11. Измерение разброса данных
Дальше: 13. Инструменты оценки параметров: PDF, CDF и квантильная функция