Выводы Мила поднимают важные вопросы. Почему, собственно, формула побеждает? Что именно она делает лучше? Хотя по сути следовало бы задаться вопросом: а что именно люди делают хуже? Ответ прост – люди во многих отношениях слабее статистических моделей. И одна из критических слабостей состоит в том, что суждения людей подвержены влиянию шума.
Чтобы подтвердить этот вывод, обратимся к другому направлению в исследовании простых моделей, которое берет начало в городке Юджин, штат Орегон. Пол Хофман был состоятельным человеком и мудрым психологом, а еще не следовал установленным в науке правилам. Он основал научно-исследовательский институт, где собрал под одной крышей нескольких чрезвычайно эффективных ученых, превратив Юджин во всемирно известный центр изучения оценок и прогнозов.
Одним из этих исследователей был Льюис Голдберг, известность которому принесла ведущая роль в разработке модели личности, получившей название «Большой пятерки». В конце 1960-х годов106, развивая идеи ранних работ Хофмана, Голдберг изучал статистические модели, описывающие суждения людей.
Построить «модель эксперта» почти так же просто, как и любую отражающую реальность модель. Используются те же прогностические факторы. В нашем исходном примере это пять рейтингов менеджеров. Используется тот же инструмент – множественная регрессия. Вот только целевая переменная другая. Вместо прогнозирования реальных результатов работы формула применяется к прогнозированию оценочных суждений – к примеру, ваши оценки Моники, Натали и других менеджеров.
Сама идея моделирования ваших суждений как расчета средневзвешенной величины может показаться весьма странной. Разве так формируется ваше мнение? Когда вы думаете – в клиническом смысле – о Монике и Натали, вы не применяете к каждой из них одно и то же правило. Более того, вы вообще не применяете никаких правил. «Модель эксперта» не является реалистичным описанием вашего мыслительного процесса.
Однако, даже если вы ничего не вычисляете по линейной формуле, вы можете давать свои оценки, как если бы занимались вычислениями. Опытные игроки в бильярд бьют по шару так, словно решают в уме сложные уравнения107, описывающие механику каждого отдельного удара. Подобно им и вы можете выдавать прогнозы, будто пользуетесь простой формулой – хотя на деле решаете намного более сложные задачи. Условная модель, построенная по принципу «если бы», которая с приемлемой точностью прогнозирует, что станут делать люди, вполне пригодна, даже когда она явно не подходит в качестве описания процесса. Это довод в пользу простых моделей. Комплексный обзор исследований выявил, что в 237 случаях средняя корреляция между «моделью эксперта» и клиническими оценками составила 0,8 (ПС=79 %). Пусть не идеальный, однако довольно высокий результат108 в поддержку условной модели.
Вопрос, который побудил Голдберга заняться исследованиями, звучал так: насколько хорошо простая «модель эксперта» может прогнозировать реальные результаты? Поскольку модель является грубой аппроксимацией человека, было бы разумно допустить, что не очень хорошо. А много ли мы теряем в точности, когда модель заменяет человека?
Ответ может вас удивить. Прогнозы не стали менее точными, когда их генерировала модель. Наоборот, точность повысилась. В большинстве случаев модель обошла профессионалов, работу которых имитировала. Эрзац оказался лучше оригинального продукта.
Этот вывод был подтвержден исследованиями в различных сферах. Первые повторения109 опытов Голдберга включали в себя прогнозы успехов выпускников средних школ. Исследователи дали задание 98 участникам спрогнозировать средний балл 90 старшеклассников на основе десяти ключевых факторов. На базе прогнозов исследователи построили линейную модель каждого участника и сравнили, насколько точно спрогнозировали средний балл участники и модели. Для каждого из 98 участников эксперимента модель оказалась лучше! Десятилетия спустя сводный обзор исследований за минувшие полстолетия110 заключил, что модели стабильно превосходили экспертов, работу которых моделировали.
Мы не знаем, получали ли участники исследований обратную связь. Однако представьте свое смятение, если кто-то скажет вам, что грубая модель ваших оценочных суждений – практически карикатура – оказалась в действительности более точной, чем вы сами! Для большинства из нас процесс вынесения оценок является сложным, многогранным и интересным именно потому, что не сводится к простым правилам. Мы гордимся собой и своей способностью делать прогнозы, когда создаем и применяем сложные правила или задействуем свою интуицию, выделяя отдельный случай на фоне остальных – короче говоря, когда даем оценки, которые не сводятся к тупому вычислению средневзвешенного значения. Изучение «модели эксперта» подкрепляет выводы Мила о бесполезности искусных умозаключений. Зачем впустую напрягать ум? Сложность и многогранность необязательно приводят к повышению точности прогнозов.
В чем же дело? Чтобы разобраться в выкладках Голдберга, нам нужно понять, в чем различия между вами и «вашей моделью». Что является причиной расхождений между вашими реальными оценками и результатом, который выдает простая модель?
Статистическая модель ваших оценок не может добавить ничего к заложенной в нее информации. Все, что под силу модели, – вычитать и упрощать. В частности, простая модель не будет формировать никаких сложных правил, которых придерживаетесь вы. Если вы думаете, что разница между 10 и 9 баллами при оценке коммуникативных навыков более значима, чем разница между 7 и 6 баллами, или кандидат, набравший твердые 7 баллов по каждому из параметров, предпочтителен кандидату, получившему те же 7 баллов в среднем, однако имеющему очевидные сильные стороны и явно выраженные слабые, то «ваша модель» не будет копировать ваши сложные правила – даже если вы сами применяете их с образцовым постоянством.
Отказ от следования вашим изощренным правилам приведет к потере точности только в том случае, если ваши догадки верны. Допустим, вам нужно спрогнозировать чью-то успешность в решении сложных задач, имея на входе два параметра – навыки и мотивацию. Взять формулу и вычислить средневзвешенное значение тут недостаточно, потому что никакая мотивация не восполнит серьезный дефицит навыков – и наоборот. Если вы используете более сложную комбинацию входных параметров, то точность ваших прогнозов повысится и станет больше, чем у модели, которая не в состоянии проявить подобную гибкость. С другой стороны, сложные правила зачастую дают вам лишь иллюзию достоверности и фактически наносят ущерб качеству ваших предположений. Некоторые хитрые комбинации действительно эффективны, однако в большинстве из них нет смысла.
К тому же простая «модель эксперта» не будет воспроизводить внутриэкспертный шум в ваших прогнозах. Она не сможет воспроизвести отклонения в ту или иную сторону, возникающие в результате ваших непредсказуемых реакций, от которых вы не застрахованы в каждом конкретном случае. Никакая модель не подвержена влиянию обстановки и вашего психического состояния в момент прогноза. Скорее всего, эти шумовые ошибки в оценках ни с чем систематически не коррелируют, а это значит, что в большинстве случаев они могут рассматриваться как случайные.
Следствием устранения шума из ваших оценок всегда будет повышение точности ваших прогнозов111. Предположим, например, что корреляция между вашими прогнозами и фактическим результатом составляет 0,5 (ПС=67 %), однако 50 % расхождений состоят из шумов. Если полностью устранить шум из ваших оценок – то есть создать вашу идеальную модель, – то корреляция с тем же фактическим результатом подскочит до 0,71 (ПС=75 %). Другими словами, сокращение шума автоматически повышает достоверность прогнозов.
Итак, если заменить вас моделью, произойдут две вещи: устранение вашей изобретательности и устранение ваших внутриэкспертных шумовых помех. Грубый вывод, что «модель эксперта» более эффективна, чем сам эксперт, несет в себе важное послание: преимуществ громоздких правил, используемых человеком – если таковые существуют, – в большинстве случаев недостаточно, чтобы компенсировать негативное воздействие шума. Вам может казаться, что вы более искусны, более проницательны и более чувствительны к нюансам, чем линейная карикатура вашего мыслительного процесса. А на самом деле в ваших суждениях больше шума.
Почему же сложные правила вредят точности прогнозов, хотя мы упорно верим, что они помогают проникнуть в самую суть? Прежде всего, большинство сложных правил, применяемых людьми, далеко не всегда верны. Однако есть и другая проблема: даже если сложные правила верны в принципе, они неизбежно применяются в условиях, которые нечасто наблюдаются на практике. Например, вы сделали вывод, что приема на работу достойны уникальные в своем роде кандидаты, даже если по остальным параметрам они показывают посредственные результаты. Только вот незадача: уникальные кандидаты, как следует из определения, встречаются крайне редко. Поскольку подсчитать уникальность в баллах – дело неблагодарное, то бо́льшую часть высоких оценок по этому показателю можно отнести к везению, и действительно талантливый соискатель часто остается за бортом. Оценки эффективности, которые могут подтвердить, что подобный «оригинал» в будущем станет суперзвездой, так же несовершенны. Погрешности измерения с обоих полюсов неизбежно снижают достоверность прогнозов, и те самые редкие случаи, вероятнее всего, будут пропущены. Преимущества верных догадок быстро тонут в погрешности измерения.
Мартин Ю и Нейтан Канцел в своих исследованиях112 изложили более радикальную версию доказательств Голдберга. В своей работе (на ее базе мы составили пример Моники и Натали) они пользовались данными, полученными от международной консалтинговой фирмы, которая привлекла экспертов для оценки 847 кандидатов на руководящие должности, по трем отдельным выборкам. Эксперты выставили баллы по семи параметрам и, используя свои клинические оценки, определили общий предиктивный балл. Результаты получились крайне невыразительными.
Ю и Канцел решили сравнить экспертов не с лучшей простой «моделью эксперта», а со случайной линейной моделью. Они сгенерировали десять тысяч наборов случайных значений по семи прогностическим параметрам и, используя десять тысяч случайных формул113, спрогнозировали результаты будущей деятельности кандидатов.
Исследователи сделали поразительное открытие: любая линейная модель, примененная последовательно ко всем случаям, вероятнее всего, одержит верх над человеком в прогнозировании результатов на основе той же информации. В одной из трех выборок 77 % из десяти тысяч случайных линейных моделей оказались точнее, чем эксперты. В двух остальных выборках превзошли человека 100 % случайных моделей. Или, попросту говоря, в данном эксперименте оказалось практически невозможно сгенерировать простую модель, которая работала бы хуже экспертов.
Из эксперимента следуют более серьезные выводы, чем из работ Голдберга с моделями экспертов, – и в самом деле, случай из ряда вон. В данных исследованиях эксперты выступили крайне слабо в абсолютном выражении, что помогает объяснить, почему их превзошли даже заурядные линейные модели. Конечно, из этого не следует, что любая модель совершеннее любого человека. И все же тот факт, что механическое следование любому простому правилу (Ю и Канцел назвали его «бессознательная логика») может существенно повысить точность оценок в сложных задачах, иллюстрирует ощутимое влияние шума на достоверность клинических прогнозов.
Наш краткий обзор показал, как шум ухудшает качество клинических оценок. Над человеком легко одерживают победу простые формулы – модели реальности, «модели экспертов» и даже случайно сгенерированные модели. Это открытие свидетельствует в пользу «бесшумных» методов. Такие правила и алгоритмы мы рассмотрим в следующей главе.