Книга: Шум. Несовершенство человеческих суждений
Назад: К разговору о групповых решениях
Дальше: Голдберг: ваша модель одерживает над вами верх

Суждение или формула?

Ваш неформальный подход к данной проблеме известен как клиническое суждение. Вы обдумываете информацию, возможно, производите быстрые вычисления, сверяетесь со своей интуицией и выносите вердикт. По сути, в данной книге мы называем просто суждением именно клиническое суждение.

Теперь предположим, вы решали задачу по прогнозированию как участник эксперимента. Моника и Натали были выбраны из базы данных, включающей сотни менеджеров, принятых на работу несколько лет назад, которым присвоили рейтинги по пяти независимым параметрам. На базе этих рейтингов вы спрогнозировали эффективность их работы. Показатели трудовой деятельности менеджеров в новой должности в настоящее время доступны. Насколько близки эти показатели к вашей клинической оценке?

Данный пример представлен на основе реальных исследований прогнозирования эффективности95 работы персонала. И будь вы участником исследования, вас, вероятно, не удовлетворил бы результат. Дипломированные психологи, привлеченные международной консалтинговой фирмой для этой работы, получили корреляцию 0,15 с реальной производительностью (ПС=55 %). Другими словами, когда они аттестовали одного из кандидатов как более сильного – как и мы на примере Моники и Натали, – то вероятность того, что выбранный кандидат показал бо́льшую эффективность, оказалась 55 %, что практически не точнее, чем при случайном выборе. Результат, мягко говоря, не впечатляет.

Возможно, вы объясните столь низкую точность тем, что данные рейтинги не подходят для прогнозирования. Тогда мы должны задаться вопросом: а много ли полезной для прогнозирования информации действительно содержат рейтинги кандидатов? Как они могут обусловить индекс предсказания, который будет иметь максимально возможную корреляцию с фактическим результатом?

На эти вопросы можно ответить стандартными статистическими методами. В представленном исследовании они добиваются оптимальной корреляции 0,32 (ПС=60 %) – что также не впечатляет, однако существенно выше, чем клиническая оценка.

Такая техника, называемая множественной регрессией, определяет показатель, являющийся взвешенным средним96 прогностических факторов. С ее помощью вычисляется оптимальный набор весовых коэффициентов, призванный максимизировать корреляцию между общим прогнозом и целевой переменной. Оптимальные коэффициенты минимизируют MSE (среднеквадратическую ошибку) прогнозов – отличный пример доминирующей роли метода наименьших квадратов в статистике. Как можно ожидать, прогностический фактор, наиболее сильно коррелирующий со значением целевой переменной, получает больший коэффициент97, а наиболее бесполезный получает коэффициент, равный нулю. Коэффициент может быть и отрицательным: количество неоплаченных штрафов за нарушение правил дорожного движения как фактор управленческого успеха, по всей вероятности, получит отрицательный коэффициент.

Использование множественной регрессии – один из примеров механического прогнозирования. Есть много видов механического прогнозирования, в диапазоне от простых правил («нанять любого, кто окончил среднюю школу») до сложнейших моделей с привлечением искусственного интеллекта. Однако линейные регрессивные модели (их еще называют «рабочими лошадками98 исследований в области оценок и принятия решений») получили наибольшее распространение. Чтобы сократить количество профессионального жаргона в книге, мы будем называть линейные модели простыми моделями.

Исследование, которое мы проиллюстрировали на примере Моники и Натали, было одним из многих сопоставлений клинического и механического прогнозирования. Все они отличаются простой структурой99:



▣ для прогнозирования конечного результата (эффективность работы одних и тех же людей) используется набор переменных (в нашем случае рейтинг кандидатов);

клиническое прогнозирование выполняют люди;

▣ алгоритм (например, множественная регрессия) использует те же прогностические факторы для механического прогнозирования тех же результатов;

▣ сравнивается точность клинического и механического прогнозирования.

Пол Мил: оптимальная модель одерживает над вами верх

Знакомясь с клиническим и механическим прогнозированием, люди хотят знать, как их сравнивать. И как выглядит прогноз, сделанный человеком, на фоне вычисленного по формуле?

Такой вопрос задавался и ранее, однако наибольшее внимание привлек к себе лишь в 1954 году, когда профессор психологии Университета Миннесоты Пол Мил опубликовал книгу «Клинический и статистический прогнозы: теоретический анализ и фактологический обзор»100. Мил представил обзор двадцати исследований в сфере высшего образования и в психиатрической диагностике, где клинические оценки противопоставлялись механическим прогнозам. Он пришел к однозначному выводу, что простые механические правила в большинстве случаев одерживают верх над экспертами. Мил обнаружил – практикующие врачи и профессионалы в других областях удручающе слабы в том, что сами нередко считают своей особенно сильной стороной, а именно в способности обобщать информацию.

Чтобы понять, насколько поразительны эти открытия и при чем здесь шум, следует разобраться в работе простой механической модели. Ее ключевая характеристика состоит в том, что одно и то же правило применимо ко всем случаям. Каждый прогностический фактор имеет свой вес, и этот вес одинаков для каждого случая. Вы можете подумать, что столь строгие ограничения ставят модель в крайне невыгодное положение по отношению к экспертам. Вернемся к нашему примеру. Возможно, вы решите, что для Моники сочетание ее мотивации и технических навыков является самым важным качеством и компенсирует ее недостаточность в других областях, в то время как слабость Натали по этим двум параметрам не станет серьезной проблемой с учетом ее сильных сторон. Неявным образом вы уже определили для двух женщин разные средства достижения успеха. Эти вполне убедительные клинические теории по сути присваивают в двух случаях различный вес одному и тому же фактору – ухищрение, на которое неспособна простая модель.

Другое ограничение простой модели – разница в 1 единицу для какого-либо предиктора всегда дает одинаковый эффект (и половинный эффект при разнице в 2 единицы). Клиническая интуиция часто нарушает это правило. Если, к примеру, вас впечатлил полученный Натали высший балл 10 за коммуникативные навыки и в значительной степени повлиял на ее репутацию в ваших глазах, вы сделали то, чего никогда не сделает простая модель. А для формулы, которая рассчитывает средневзвешенное значение, разница между 10 и 9 баллами – то же самое, что разница между 7 и 6 баллами. Клиническая оценка не подчиняется этому правилу. Напротив, она отражает распространенное интуитивное мнение: разница в 1 балл может быть несущественной в одних случаях и критической в других. Возможно, вам захочется это проверить, однако мы подозреваем, что ни одна простая модель не сможет точно объяснить ваши оценки Моники и Натали.

Исследование, на которое мы опирались для этих случаев, – один из очевидных примеров схемы Мила. Как мы заметили ранее, клинические прогнозы достигают корреляции 0,15 (ПС=55 %) при оценке эффективности работы кандидатов, а механические прогнозы – 0,32 (ПС=60 %). Вспомните, с какой уверенностью вы сравнивали оценки, полученные при тестировании Моники и Натали. Результаты Мила настойчиво указывают, что ваша удовлетворенность правотой своих суждений была иллюзией, а точнее, иллюзией достоверности.

Иллюзия достоверности присутствует в любых прогнозах и возникает вследствие распространенной ошибки, когда люди не различают два этапа задачи прогнозирования: количественные оценки на основании имеющихся в распоряжении фактов и прогнозирование реальных результатов. Зачастую вы можете быть абсолютно уверены в своем мнении, какой из кандидатов выглядит более достойным, однако догадаться, который из них действительно окажется лучшим – совершенно другое дело. Например, можно с уверенностью заявлять, что Натали выглядит более сильным кандидатом, чем Моника, однако никак нельзя утверждать, что Натали будет работать более успешно. Причина лежит на поверхности: вам известно достаточно много, чтобы дать оценку кандидатам, однако заглянуть в будущее вам не дано.

К сожалению, в нашем сознании граница размывается. Вы озадачены тем, что не видите разницу между количественной оценкой и прогнозированием? Поздравляем, вы в отличной компании: эту разницу не видит практически никто. А если вы уверены в своих прогнозах так же, как и в оценках, вы стали жертвой иллюзии достоверности.

От иллюзии достоверности не застрахованы и клиницисты. Можно с уверенностью представить себе реакцию психолога на выводы Мила о том, что тривиальные формулы, последовательно примененные, превосходят клинические оценки. Шок, недоверие, презрение к поверхностным исследованиям, авторы которых вздумали усомниться в чудесах клинической интуиции. Подобную реакцию легко понять: схема Мила противоречит субъективному восприятию, а большинство из нас скорее доверится собственному опыту, чем всяким наукообразным заявлениям.

Мил сам неоднозначно относился к своим выводам. Его имя ассоциируется с превосходством статистики над клиническими оценками, и можно представить Мила непреклонным критиком внезапных озарений или крестным отцом количественного анализа, как мы сказали бы сейчас. Однако этот образ был бы карикатурным. Мил, помимо своей академической карьеры, работал как практикующий психоаналитик. В его кабинете висел портрет Фрейда101. Он был энциклопедистом102; кроме психологического, получил философское и юридическое образование, писал статьи по метафизике, религии, политическим наукам и даже парапсихологии. (Мил настойчиво утверждал, что «в телепатии что-то есть».) Ни одно из этих человеческих качеств не соответствует стереотипу упертого бухгалтера. Мил ничего не имел против клиницистов – скорее наоборот. Однако когда он задался целью, доказательства преимуществ механического подхода к задаче были «массивными и последовательными».

«Массивными и последовательными»103 – это еще мягко сказано. Две тысячи статей 104 по результатам 136 исследований однозначно подтверждали превосходство механической агрегации над клиническими оценками. Исследования проводились в различных областях, включая диагностику гепатита, годность к военной службе и удовлетворенность в браке. Механическое прогнозирование оказалось более точным в 63 исследованиях, статистические закономерности наблюдалась еще в 65, а клинические прогнозы выиграли состязание в 8 случаях. При этом полученные результаты умаляли преимущества механического прогнозирования, которое к тому же является более быстрым и дешевым. Более того, оценки экспертов в большинстве исследований на самом деле имели несправедливое преимущество за счет доступа к «личной» информации105, не включенной в компьютерную модель. Выводы однозначно подтверждали: простая модель одерживает верх над человеком.

Назад: К разговору о групповых решениях
Дальше: Голдберг: ваша модель одерживает над вами верх