В этой главе вы познакомитесь с оценкой параметров — важной частью статистического вывода, где используются данные, чтобы угадать значение неизвестной переменной. Например, может понадобиться оценить вероятность того, что посетитель на веб-странице совершит покупку, узнать предположительное количество драже в банке или местоположение и импульс частицы. Во всех этих случаях у нас есть неизвестное значение, которое нужно оценить, и мы можем использовать наблюдаемую информацию, чтобы сделать предположение. Эти неизвестные значения называются параметрами, а процесс выбора наилучшего значения этих параметров — оценкой параметров.
Мы сосредоточимся на усреднении (averaging), которое является основной формой оценки параметров. Почти все понимают, что усреднение набора наблюдений — лучший способ оценить истинное значение, но лишь немногие действительно пытаются разобраться, почему это работает и верно ли это вообще. Нужно доказать, что мы можем доверять усреднению, потому что в последующих главах оно будет встраиваться в более сложные формы оценки параметров.
Представьте, что прошлой ночью шел сильный снег, и необходимо точно определить, сколько снега выпало в дюймах на вашем дворе. К сожалению, у вас нет снежного датчика, который предоставил бы точное измерение. Посмотрев на улицу, вы увидите, что ветер разметал снег за ночь, что означает, что он не равномерно ровный. Решено использовать линейку для измерения глубины в семи случайных местах во дворе. Вы получаете следующие измерения (в дюймах):
6,2; 4,5; 5,7; 7,6; 5,3; 8,0; 6,9.
Снег заметно сместился, и двор тоже не совсем ровный, поэтому все измерения отличаются друг от друга. Учитывая это, как можно использовать измерения, чтобы сделать правильное предположение о фактическом снегопаде?
Такая задача является отличным примером для оценки параметров. Оцениваемый параметр — это фактическая глубина снегопада предыдущей ночью. Обратите внимание: поскольку ветер разметал снег, а снежного датчика нет, мы никогда не сможем узнать точное количество выпавшего снега. Но у нас есть набор данных, которые можно объединить, используя вероятность, чтобы определить вклад каждого наблюдения в оценку и сделать наилучшее возможное предположение.
Вероятно, в первую очередь эти измерения хочется усреднить. В начальной школе мы учимся усреднять элементы, складывая их и деля сумму на общее количество элементов. Поэтому, если есть n измерений, каждое из которых помечено как mi, где i — это i-е измерение, получаем:
.
Подставив данные, получаем следующее решение:
.
Итак, учитывая семь наблюдений, лучшее предположение состоит в том, что выпало около 6,31 дюймов (16 см) снега. Усреднение — метод, знакомый нам с детства, поэтому его применение к этой проблеме кажется очевидным, но на самом деле трудно понять, почему он работает и как связан с вероятностью. В конце концов, каждое из измерений отличается, и все они, вероятно, отличаются от истинного значения выпавшего снега. Даже великие математики боялись, что усреднение данных объединяет все эти ошибочные измерения, что приводит к очень неточной оценке.
При оценке параметров очень важно понять, почему мы принимаем то или иное решение; в противном случае мы рискуем использовать оценку, которая может быть непреднамеренной или систематической ошибкой. В статистике обычно допускают одну ошибку — слепое применение процедур без их понимания, что часто приводит к неправильному решению проблемы. Вероятность — это наш инструмент для рассуждений о неопределенности, а оценка параметров, возможно, является наиболее распространенным процессом для решения проблем неопределенности. Давайте подробно изучим усреднение, чтобы понять, действительно ли это правильный путь.
Давайте немного упростим задачу о снегопаде: вместо того чтобы представлять все возможные глубины снега, представьте, что снег падает в красивые однородные блоки, так что двор образует простую двумерную сетку. На рис. 10.1 показан этот идеальный снежный покров глубиной 6 дюймов, визуализированный сбоку (а не с высоты птичьего полета).
Это идеальный сценарий. У нас нет неограниченного количества возможных измерений; вместо этого мы выбираем шесть возможных местоположений, и у каждого местоположения есть только одно возможное измерение — 6 дюймов. Очевидно, что усреднение работает в этом случае, потому что, какие бы данные ни были выбраны, ответ всегда будет равен 6 дюймам.
Сравните это с рис. 10.2, где показаны данные при включении в них сметенного ветром снега с левой стороны дома.
Теперь вместо красивой гладкой поверхности появилась некоторая неопределенность. Конечно, это не совсем верно, потому что можно легко сосчитать каждый блок снега и точно узнать, сколько снега выпало. Этот пример используется в учебных целях, чтобы понять ход рассуждений
Рис. 10.1. Визуализация равномерного дискретного снежного покрова
Рис. 10.2. Визуализация снега, который сдул ветер
относительно неопределенной ситуации. Начнем с измерения каждого из блоков во дворе:
8, 7, 6, 6, 5, 4.
Далее нужно связать вероятности с каждым значением. Поскольку мы жульничаем и знаем, что истинное значение глубины снежного покрова составляет 6 дюймов, запишем также разницу между наблюдением и истинным значением, известную как значение ошибки (табл. 10.1).
Таблица 10.1. Наблюдения, а также их частоты и отклонения от истины
Наблюдение | Отклонение от истины | Вероятность |
8 | 2 | 1/6 |
7 | 1 | 1/6 |
6 | 0 | 2/6 |
5 | –1 | 1/6 |
4 | –2 | 1/6 |
Взглянув на расстояние от истинного измерения для каждого возможного наблюдения, можно увидеть, что вероятность завышения определенного значения уравновешивается вероятностью заниженного измерения. Например, существует вероятность 1/6 выбора измерения, которое на 2 дюйма выше истинного значения, но та же вероятность и у выбора измерения, которое на 2 дюйма ниже истинного значения. Это приводит к первому ключевому пониманию того, почему усреднение работает: ошибки в измерении имеют тенденцию взаимно компенсировать друг друга.
При таком плавном распределении ошибок предыдущий сценарий мог не убедить вас в том, что в более сложных ситуациях ошибки устраняются. Чтобы показать, как этот эффект сохраняется в других случаях, рассмотрим более экстремальный пример. Предположим, что ветер надул 21 дюйм снега на один из шести квадратов и оставил только 3 дюйма на каждом из оставшихся квадратов, как показано на рис. 10.3.
Рис. 10.3. Экстремальный случай смещения снега ветром
Теперь мы видим совершенно иное распределение снежного покрова. В отличие от предыдущего примера ни одно из значений, из которых мы можем сделать выборку, не равно истинному уровню выпавшего снега. Кроме того, наши ошибки больше не распределяются должным образом: существует куча измерений ниже ожидаемых и одно чрезвычайно высокое. В табл. 10.2 показаны возможные измерения, отличие от истинного значения и вероятность каждого измерения.
Таблица 10.2. Наблюдения, различия и вероятности для экстремального примера
Наблюдение | Отклонение от истины | Вероятность |
21 | 15 | 1/6 |
3 | –3 | 5/6 |
Очевидно, что мы не можем просто сопоставить значение ошибки одного наблюдения с другим и заставить их уравновесить друг друга. Тем не менее можно использовать вероятность, чтобы показать, что даже в этом экстремальном распределении ошибки по-прежнему компенсируют друг друга. Это возможно, если представлять каждое измерение ошибки как значение, за которое проголосовали наши данные. Вероятность каждой наблюдаемой ошибки заключается в том, насколько сильно мы верим в эту ошибку. При необходимости объединить наблюдения можно рассматривать вероятность наблюдения как значение, представляющее силу голоса в отношении окончательной оценки. В этом случае погрешность –3 дюйма в пять раз более вероятна, чем погрешность 15 дюймов, поэтому значение –3 становится более весомым. Таким образом, если бы мы принимали участие в голосовании, –3 получило бы пять голосов, тогда как 15 получило бы только один голос. Мы объединяем все голоса, умножая каждое значение на его вероятность и складывая их вместе, в результате чего получается взвешенная сумма. В крайнем случае, когда все значения одинаковы, мы просто умножим 1 на наблюдаемое значение, и результатом будет само это значение. В нашем примере мы получаем следующее:
.
Ошибки в каждом наблюдении сводятся к нулю! Еще раз: мы обнаруживаем, что неважно, является ли ни одно из возможных значений истинным измерением или равномерно ли распределение ошибок. При взвешивании наблюдений по нашим убеждениям ошибки, как правило, взаимоисключаются.
Теперь мы достаточно уверены, что ошибки истинных измерений взаимоисключаются. Но все еще есть проблема: мы работали с ошибками из истинного наблюдения, но для их применения нужно знать истинное значение. Когда мы не знаем истинного значения, все, с чем можно работать, — это наши собственные наблюдения, поэтому нужно посмотреть, все ли ошибки устраняются при наличии взвешенной суммы исходных наблюдений.
Чтобы продемонстрировать, что метод работает, нужны «неизвестные» истинные значения. Начнем со следующих ошибок:
2, 1, –1, –2.
Поскольку истинное измерение неизвестно, мы представим его переменной t, а затем добавим ошибку. Теперь можно взвесить каждое из этих наблюдений по вероятности:
.
Все, что мы здесь сделали, — добавили ошибку к постоянному значению t, которое представляет истинную меру, а затем взвесили каждый из результатов по его вероятности. Мы делаем это, чтобы посмотреть, можно ли будет уравновесить ошибки и оставить только значение t. Если это так, то можно ожидать, что ошибки будут устраняться даже при простом усреднении обычных наблюдений.
Следующий шаг — применить вес вероятности к значениям величин:
.
Теперь, если мы переупорядочим эти величины так, чтобы все ошибки были вместе, то увидим, что ошибки все равно будут аннулированы, и взвешенное значение t суммируется до просто t, неизвестного истинного значения:
.
Это показывает, что даже при определении измерений как неизвестного истинного значения t и добавлении некоторого значения ошибки все ошибки все равно взаимоисключаются! В конце остается только t. Даже когда мы не знаем, каково истинное измерение или истинная ошибка, при усреднении значений ошибки, как правило, сводятся на нет.
На практике не всегда можно отобрать все пространство возможных измерений, но чем больше выборка, тем большее количество ошибок будет устранено и тем ближе оценка будет к истинному значению.
То, к чему мы пришли, формально называется ожиданием, или среднимзначением данных. Это просто сумма каждого значения, взвешенного по его вероятности. Если обозначить каждое из измерений как xi, а вероятность каждого измерения как pi, среднее значение, которое обычно обозначается как μ (строчная греческая буква «мю»), математически будет определено следующим образом:
.
Для ясности, это в точности такое же вычисление, как усреднение, которое мы выучили в начальной школе, просто с нотацией, чтобы сделать использование вероятности более явным. В качестве примера, в школе усреднение четырех чисел мы записали бы как:
что идентично записи:
Можно просто сказать, что pi = 1/4 и записать это следующим образом:
Так что, хотя среднее значение действительно просто то же среднее, с которым мы уже знакомы, основываясь на принципах вероятности, мы видим, почему усреднение данных работает. Независимо от того, как распределены ошибки, вероятность ошибок в одном экстремуме компенсируется вероятностями в другом экстремуме. По мере получений большего количества данных в выборке средние значения с большей вероятностью сводятся на нет, и мы начинаем приближаться к необходимому истинному измерению.
Мы использовали среднее значение для оценки истинного измерения по распределению наблюдений с некоторой добавленной ошибкой. Но среднее часто используется как способ суммирования набора данных. Например, можно сослаться на такие вещи, как:
• средний рост человека;
• средняя цена дома;
• средний возраст учащегося.
Во всех этих случаях среднее значение используется не в качестве оценки параметра для одного истинного измерения; вместо этого суммируются свойства населения. Ради точности мы оцениваем параметр некоторого абстрактного свойства этих групп, которое может даже не быть реальным. Несмотря на то что среднее значение является очень простой и общеизвестной оценкой параметров, им можно легко злоупотребить, что приведет к весьма странным результатам.
Фундаментальный вопрос, который всегда нужно задавать себе при усреднении данных: «Что именно я пытаюсь измерить и что на самом деле означает это значение?» В примере со снегопадом ответ прост: мы пытаемся оценить, сколько снега выпало прошлой ночью, прежде чем ветер разметал его. Однако при измерении «среднего роста» ответ не так ясен. Нет «нормального» человека, и различия в росте, которые мы наблюдаем, не являются ошибками — это действительно разные величины. Человек имеет рост 1,67 метра не потому, что какая-то его часть сместилась на человека ростом 1,92 метра!
Если вы строите парк развлечений и хотите знать, какие ограничения по высоте накладывать на американские горки, чтобы покататься на них могла по крайней мере половина посетителей, то в этом случае есть определенное значение, которое нужно измерить. И в этом случае среднее значение вдруг становится менее полезным. Лучшим измерением для оценки является вероятность того, что кто-то, входящий в парк, будет выше x, где x — минимальный рост для катания на американских горках.
Все утверждения в этой главе предполагают, что мы говорим о попытке измерить определенное значение и использовать среднее значение для устранения ошибок. То есть усреднение используется как форма оценки параметров, где параметр является фактическим значением, которое мы просто никогда не узнаем. Хотя усреднение также может быть полезно для суммирования больших наборов данных, нельзя использовать интуицию «устранения ошибок», поскольку изменение в данных является подлинным, значимым изменением, а не ошибкой в измерении.
В этой главе вы узнали, что можно доверять интуиции в усреднении измерений, чтобы получить наилучшую оценку неизвестного значения. Это работает, потому что ошибки имеют тенденцию к взаимоисключению. Можно формализовать это понятие усреднения в идею ожидания или среднего значения. При вычислении среднего значения все наблюдения взвешиваются по вероятности их появления. Наконец, даже если усреднение является простым инструментом для рассуждений, всегда стоит определять и понимать то, что именно мы пытаемся определить путем усреднения; в противном случае результаты могут оказаться недействительными.
Чтобы убедиться, что вы понимаете усреднение для оценки неизвестного измерения, попробуйте ответить на эти вопросы.
1. Можно получить ошибки, не в полной мере взаимоисключающие. По шкале Фаренгейта 98,6 градуса — это нормальная температура тела, а 100,4 градуса — типичный порог лихорадки. Скажем, вы ухаживаете за ребенком, которому жарко и который кажется больным, но все повторные показания термометра находятся между 99,5 и 100,0 градуса: высоковато, но не совсем лихорадка. Вы ставите термометр самому себе и получаете несколько показаний между 97,5 и 98. Что может быть не так с термометром?
2. Учитывая, что вы чувствуете себя здоровым и у вас всегда стабильная нормальная температура, как можно изменить измерения 100, 99,5, 99,6 и 100,2, чтобы оценить, есть ли у ребенка температура?