Глава 5. Закон арбузной корки и нормальность ненормальности
Глядя новости или читая комментарии к ним, мы порой недоумеваем: «Есть в этом мире нормальные люди?!» Вроде должны быть, ведь нас много и в среднем мы наверняка нормальны. Но при этом мудрецы говорят, что каждый из нас уникален. А подростки уверены, что они-то уж точно отличаются от серой массы «нормальных людей» и ни на кого не похожи.
Небольшое отступление о том, что такое «в среднем». Часто можно услышать шутливые фразы о «средней температуре по больнице» или «средней зарплате», не отражающей действительное распределение. В статистике встречаются несколько разных средних. Чаще всего применяются три вида — выборочное среднее (или просто среднее), выборочная медиана и мода.
Пусть у нас есть выборка X = (x1,…,xn). Тогда выборочное среднее — обычное среднее арифметическое (x1+…+xn)/n. Когда мы говорим о среднем росте или средней оценке в школе, обычно подразумеваем именно это.
Однако бывают случаи, когда выборочное среднее не отражает «нужную среднесть». Представьте, что вы считаете средний доход в городе. Если там живет Билл Гейтс, то вы получите завышенный результат с точки зрения любой практической задачи. Для исправления ситуации можно использовать, например, медиану.
Возьмем ту же выборку и упорядочим числа по возрастанию: x(1)≤x(2)≤…≤x(n). Такое представление называется вариационным рядом. Здесь x(1) — наименьшее число в выборке, x(2) — второе по величине и т. д. Выборочная медиана — среднее по номеру число в вариационном ряду. Если в нем нечетное число элементов (n = 2k + 1), то медиана — элемент x(k+1), а если четное (n = 2k), то медианой обычно считают полусумму двух средних элементов вариационного ряда (x(k) + x(k+1))/2. Иными словами, медиана — такое число, справа и слева от которого в вариационном ряду поровну элементов. Для оценки дохода (а также во всех иных случаях, когда в выборке могут быть значительные выбросы вверх и вниз) медиана подходит гораздо лучше: если в выборку добавить большое (или маленькое) число, то среднее арифметическое изменится сильно, а медиана гораздо слабее.
Наконец, мода — просто самое частое значение в нашей выборке. Приведем простой пример. Представим себе маленькую компанию, в которой работают пять человек. Директор получает 200 тысяч рублей, его заместитель — 100 тысяч, бухгалтер — 50 тысяч, а два рядовых работника — по 20 тысяч. Тогда выборочное среднее (200 000 + 100 000 + 50 000 + 20 000 + 20 000) / 5 = 78 000. Медиана — 50 000 (есть две зарплаты больше этого числа и две меньше). Мода — 20 000 (это значение встречается два раза — чаще других вариантов). Если компания будет зазывать новых работников и утверждать, что средняя зарплата в ней равна 78 000, то это будет формально верно, а на деле надувательство. Здесь нужно ориентироваться на моду: раз вас зовут, то, надо думать, рядовыми работниками, а не директорами.
В этой главе мы поговорим о средних значениях и их репрезентативности. До сих пор мы рассматривали одномерные распределения — распределения в одномерном пространстве исходов. Но жизнь многогранна и уж точно не одномерна! А при добавлении дополнительных размерностей порой происходят весьма неожиданные события.