Шум в сравнительных прогнозах: пределы абсолютных оценок

Наша ограниченная способность распознавать категории на шкалах интенсивности приводит к неточности сравнений. Такими словами, как «большой» или «богатый», обозначаются одинаковые отметки на шкалах при измерении размеров или уровня дохода. Вот и потенциально важный источник шума.

Женщина, которая уходит на пенсию с поста инвестиционного банкира, уверенно заслуживает отметку «богатая», однако насколько она богата? В языке есть много слов: состоятельный, обеспеченный, зажиточный, небедный, супербогатый и так далее. Если вам предоставить подробные характеристики уровня доходов отдельных людей и попросить закрепить за каждой из этих характеристик свое определение, то сколько категорий вы создадите, не прибегая к детальным сравнениям между ними?

Количество категорий, которые мы можем распознать на шкале интенсивности, вынесено в заглавие классической статьи по психологии «Магическое число семь¹⁶⁹ плюс-минус два», опубликованной в 1956 году. За пределами этого лимита люди начинают делать ошибки – например, присваивать параметру А более высокую категорию, чем параметру Б, в то время как при сравнении только А с Б оценивают Б выше.

Представьте себе четыре линии разной длины в диапазоне от двух до четырех дюймов, причем каждая линия длиннее следующей на одинаковый отрезок. Вам поочередно показывают линии, после чего вы должны присвоить им номера от 1 до 4: от самой короткой до самой длинной. Простое задание, не правда ли? А теперь представьте, что вам показывают пять линий разной длины и вы должны присвоить им номера от 1 до 5. Это по-прежнему просто. Когда вы начнете ошибаться? Когда количество линий достигнет магического числа семь! Удивительно, но это число мало зависит от диапазона, в котором находятся длины линий: если он составляет от двух до шести дюймов (вместо от двух до четырех), вы точно так же начнете ошибаться, когда количество линий превысит семь. То же самое происходит, если вам демонстрируют звуки различной громкости или вспышки света различной яркости. Вот истинный предел способности человека однозначно распределять по категориям размерные величины, и этот предел – около семи категорий.

Предел нашей разрешающей способности имеет большое значение, потому что умение сопоставлять параметры с категориями на шкале интенсивности не может превосходить наше умение присваивать значения этим параметрам. Процесс сопоставления является универсальным, хотя и довольно грубым инструментом быстрой Системы 1, а также ядром многих интуитивных оценок.

Магическое число не является абсолютным. Тренированный человек способен на более точное распределение по иерархическим группам. Например, мы можем отчетливо выделить несколько категорий среди мультимиллионеров по стоимости их активов, а судьи могут классифицировать преступления по степени тяжести в каждой из множества категорий, в свою очередь упорядоченных по серьезности. Тем не менее, чтобы этот процесс работал, категории должны заведомо существовать в четко определенных границах. В процессе присвоения линиям номеров в зависимости от длины вам не придет в голову разделить более длинные и более короткие на две различные категории. В режиме быстрого мышления процесс классификации сознательно не контролируется.

Есть способ преодолеть ограниченность разрешающей способности шкал: вместо абсолютных значений использовать сравнения. Мы намного лучше умеем сравнивать оценки, чем размещать их на шкале.

Как вы поступите, если вам потребуется дать оценку большому количеству ресторанов или певцов по двадцатибалльной шкале? Конечно, с пятибалльной шкалой работать проще, а обеспечить идеальную достоверность с двадцатибалльной невозможно. (Легко присвоить «Пиццерии Джо» три звезды, но как сделать выбор между одиннадцатью или двенадцатью?) Есть простое, хотя и отнимающее много времени решение. Для начала распределяем рестораны или певцов по пяти категориям, оценивая их по пятибалльной шкале. Затем ранжируем их внутри каждой категории, что обычно не должно составлять труда: вы прекрасно знаете, кого предпочтете: «Пиццерию Джо» или «Бургеры Фреда», Тейлор Свифт или Боба Дилана, хотя и определили их в одну категорию. Чтобы облегчить задачу, проще выделить четыре уровня внутри каждой категории. Теперь можно отсортировать по степени неприязни даже тех исполнителей, которых вы не любите.

Психология данного упражнения очевидна. Банальное сравнение между подлежащими оценке объектами способствует более точной классификации, чем присвоение рейтинга каждому объекту по отдельности. То же самое и с оценкой длины линий: ваша способность последовательно сравнивать их длины намного лучше, чем способность распределять по категориям; а если вам покажут две линии одновременно, точность будет еще выше.

Преимущество сравнительных оценок распространяется на многие области применения. Если у вас есть грубое представление о состоятельности разных людей, лучше сравнивать их в пределах одной категории, чем оценивать каждого в отдельности. Если вы проверяете школьные сочинения, более целесообразно разложить их по порядку от лучшего к худшему, чем читать и оценивать каждое. Сравнительные оценки более точны, чем категорические или абсолютные. Как показали вышеприведенные примеры, они также более трудоемки и требуют бо́льших затрат времени.

Оценка каждого объекта в отдельности по шкалам, однозначно принадлежащим к сравнительным, сохраняет некоторые преимущества сравнительных оценок. В некоторых ситуациях, особенно в образовании, в рекомендациях для кандидатов на зачисление или повышение в должности часто требуется поместить кандидата в «топ 5 процентов» или «топ 20 процентов» определенной группы, например «студентов вашего курса» или «программистов с одинаковым опытом работы». Эти рейтинги редко заслуживают того, чтобы принимать их всерьез, потому что бессмысленно ожидать корректного применения шкалы от того, кто дает характеристику. А вот в других ситуациях это небесполезно: когда менеджеры оценивают сотрудников или когда аналитики просчитывают инвестиции, кандидат, которого 90 % экспертов поместили в «топ 20 процентов», заслуживает особого внимания. Использование сравнительных оценок является одним из средств сокращения шумовых помех, которые мы обсудим в пятой части книги.

Многие задачи по вынесению оценок требуют сопоставления отдельных случаев с какой-либо категорией на шкале (например, семибалльной шкале согласия) или присвоения одной из расположенных по порядку характеристик (например, «маловероятно» или «крайне маловероятно» при оценке шансов наступления события). Этот тип сравнения изобилует шумом, поскольку является слишком грубым. Люди могут колебаться в выборе отметок на шкале, даже если они в принципе согласны с оценкой. Методика, которая вынуждает применять исключительно сравнительные оценки¹⁷⁰, вероятнее всего, должна сократить шум. В следующей главе мы проанализируем более подробно, каким образом использование неподходящей шкалы может увеличить шум.