Излишне самоуверенные эксперты

Наш хороший друг, психолог Филип Тетлок, обладает непередаваемым чувством юмора и страстным стремлением к справедливости. В 2005 году он опубликовал книгу под названием «Экспертные политические суждения». Несмотря на нейтральный заголовок, книга содержала убийственные нападки на способность экспертов точно предсказывать политические события.

Тетлок изучил предсказания почти трех сотен экспертов: известных журналистов, уважаемых ученых и высокопоставленных консультантов национальных лидеров. Он задался вопросом: а сбылись ли их прогнозы в политике, экономике и социальной сфере? Исследования охватывали два десятилетия; чтобы выяснить, осуществились ли долгосрочные прогнозы, требуется немало терпения.

Главное открытие Тетлока состояло в том, что в своих предсказаниях важнейших политических событий эксперты крайне разочаровывали. Книга стала знаменитой благодаря уничижительной концовке: «В среднем эксперты попадали в цель примерно с такой же точностью, как шимпанзе при игре в дартс». Более полно суть книги выражалась в том, что эксперты со своими «комментариями и рекомендациями¹³⁸ на политические и экономические темы» оказались «ничуть не лучше, чем журналисты или внимательные читатели New York Times. Разумеется, эксперты за словом в карман не лезли. Они анализировали ситуацию, рисовали захватывающую картину развития событий и уверенно опровергали возражения своих оппонентов по теледебатам. Однако знали ли они наверняка, что случится в будущем? Едва ли.

Тетлок пришел к этому выводу, прорываясь сквозь бесконечный поток красноречия. По каждому пункту он попросил экспертов оценить вероятность трех возможных исходов: статус-кво, некоторый рост или снижение. Бросающая дротики шимпанзе «выбрала» бы каждый из этих исходов с равной вероятностью – один к трем, – невзирая на реальные факты. Эксперты ненамного превысили этот очень низкий уровень. В среднем они чуть выше оценивали вероятность событий, которые произошли, чем тех, которых так и не случилось, однако наиболее яркой чертой их выступлений стала чрезмерная уверенность в своей правоте. Мудрецы, вооруженные логичными теориями о том, как функционирует этот мир, оказались наиболее самоуверенными и наименее точными.

Открытия Тетлока наводят на мысль, что детальные долгосрочные прогнозы отдельных событий попросту невозможны. В мире все настолько запутано, что самые незначительные события могут иметь серьезные последствия. Например, такой факт: имелся равный шанс, что каждый оставивший след в истории человек (да и вообще любой человек) мог бы родиться другого пола. Непредсказуемые события неизбежны, и их последствия также непредсказуемы. В результате чем дальше мы заглядываем в будущее, тем больше накапливается объективной неосведомленности. Ограниченность экспертных политических суждений обусловлена не когнитивной ограниченностью прогнозистов, а полной объективной неосведомленностью о будущих событиях.

Конечно, «мудрых» экспертов не следует порицать за провалы их долгосрочных предсказаний. Однако они заслужили свою долю критики, потому что взялись за невыполнимую задачу и возомнили, что смогут добиться успеха.

Спустя несколько лет после своего скандального открытия, касающегося бессмысленности многих долгосрочных прогнозов, Тетлок и его жена Барбара Меллерс принялись за изучение того, насколько хорошо люди справляются с предсказанием мировых событий на относительно короткий период – как правило, меньше года. Они обнаружили, что давать краткосрочные прогнозы трудно, но вполне возможно, и некоторые люди, названные Тетлоком и Меллерс суперпредсказателями, показывают лучшие результаты, чем другие, – включая работающих в разведке профессионалов. В принятых здесь терминах новые открытия совместимы с гипотезой о том, что чем дальше мы заглядываем в будущее, тем выше объективная неосведомленность. К суперпредсказателям мы вернемся в главе 21.

Беспомощные эксперты и немногим лучшие модели

Ранние исследования Тетлока продемонстрировали присущую людям абсолютную неспособность к долгосрочным политическим прогнозам. Если бы удалось найти хоть одного человека с настоящим магическим кристаллом, это полностью изменило бы сделанные выводы. Задача считается невыполнимой лишь после того, как многие заслуживающие доверия личности попробовали свои силы и потерпели неудачу. Ранее мы уже показали, что как механическая агрегация информации часто одерживает верх над человеческими оценками, так и точность правил и алгоритмов гарантирует лучшую проверку тому, насколько в действительности предсказуем – или непредсказуем – конечный результат.

После прочтения предыдущих глав у вас могло возникнуть впечатление, что алгоритмы непременно берут верх над оценочными суждениями. Однако это впечатление может быть обманчивым. Модели постепенно становятся лучше людей, но ненамного. По сути нет подтвержденных ситуаций, когда, владея одной и той же информацией, люди проявляют себя из ряда вон плохо, а модели, наоборот, очень хорошо.

В главе 9 мы упоминали обзор 136 исследований¹³⁹, которые продемонстрировали превосходство механической агрегации над клиническими оценками. В то время как доказательства этого превосходства, вне сомнения, «обширны и последовательны», разница в эффективности невелика. 93 исследования сосредоточились на бинарных оценках (да или нет); они измеряли «процент попадания» у клиницистов и формул. В среднем клиницисты оказались правы в 68 % случаев, формулы – в 73 %. Меньшая подгруппа (35 исследований) использовала в качестве меры точности коэффициент корреляции. В этом случае клиницисты получили среднюю корреляцию с конечным результатом 0,32 (ПС=60 %), а формулы – 0,56 (ПС=69 %). По обоим показателям формулы работали в равной степени лучше, чем клиницисты, однако ограниченная достоверность механических прогнозов бросается в глаза. Эффективность моделей не изменила картину довольно низкого предельного уровня прогнозируемости.

А что же искусственный интеллект? Как мы заметили, ИИ часто работает лучше простых моделей. Однако в большинстве случаев и его эффективность далека от идеальной. Рассмотрим, например, алгоритм прогнозирования при вынесении решений об освобождении под залог, обсужденный в главе 10. Мы видим, что при одном и том же количестве человек, которым отказано в освобождении, применение алгоритма может снизить уровень преступности до 24 %. Это впечатляющая победа над судьей-человеком, однако если бы алгоритм мог предсказать с идеальной точностью, какие из обвиняемых совершат преступление повторно, уровень преступности мог бы снизиться еще больше. Прогнозирование будущих преступлений в фильме «Особое мнение» неспроста всего лишь фантастика: в предсказании поведения человека немало объективной неосведомленности.

В другом исследовании под руководством Сендила Муллайнатана и Зияда Обермейера была смоделирована постановка диагноза при инфаркте¹⁴⁰. Если у пациента имеются симптомы инфаркта, медикам отделения «Скорой помощи» приходится решать, требуются ли ему дополнительные обследования. В принципе такие обследования нужны только в том случае, если риск достаточно высок: они не только дорогостоящи, но к тому же инвазивны и сами по себе рискованны. Поэтому, если нет особой опасности для пациента, они нежелательны. Таким образом, при назначении обследований врачи должны оценить риск инфаркта. Для этого исследователи создали модель на базе ИИ. Модель использует более 2400 переменных и основана на большом количестве случаев (1,6 миллиона пациентов и 4,4 миллиона обращений к врачам). При таком массиве данных модель, вероятно, достигает нижнего предела объективной неосведомленности.

Неудивительно, что точность модели на базе ИИ оказалась заметно выше, чем у врачей. Чтобы оценить эффективность модели, обратим внимание на пациентов, которых модель отнесла к 10 %, имеющим максимальный риск. По результатам обследований инфаркт был выявлен у 30 % из них, в то время как в группе среднего риска – у 9,3 %. Уровень селективности модели впечатляет, хотя и далек от идеала. Можно сделать разумный вывод, что правильность диагнозов врачей ограничена рамками объективной неосведомленности не менее, чем несовершенством их оценок.