Улучшение качества прогнозов

Исследователи предлагают различные варианты стратегий снижения шума и смещения. Мы не будем приводить на страницах книги глубокий анализ, сосредоточившись в основном на двух методах, получивших широкое распространение. О первом из них – принципе «лучший судья – лучшее решение» – мы уже рассказывали в главе 18. Второй метод является одной из универсальных стратегий гигиены принятия решений: агрегирование (обобщение) множества независимых суждений.

Проще всего обобщить несколько прогнозов, вычислив их среднее значение. Усреднение с точки зрения математики гарантирует снижение шумового фона. В данном случае мы говорим об извлечении квадратного корня из общей суммы усредняемых суждений. Подобное действие означает, что, усреднив сотню суждений, мы снизим шум на 90 %, а если в выборку входит четыреста суждений, шум снизится уже на 95 %, то есть будет фактически подавлен. Данная статистическая закономерность является движущей силой подхода «мудрость толпы», который мы обсудили в главе 7.

Вычисление средней величины само по себе не снизит смещение. Влияние данного метода на общую погрешность (среднеквадратическую ошибку) зависит от конкретных пропорций шума и смещения в такой ошибке. Именно поэтому принцип «мудрости толпы» лучше всего срабатывает, когда имеешь дело с рядом независимых суждений, с меньшей вероятностью подверженных коллективному искажению. Эмпирически доказано, что усреднение большого числа прогнозов²⁷² существенно повышает точность итогового результата. Например, так формируется консенсус-прогноз аналитиков фондового рынка. Будь то прогноз объема продаж, прогноз погоды или экономический анализ: невзвешенная средняя величина некоторого количества мнений превосходит в точности большинство²⁷³, а иногда и все индивидуальные прогнозы. Различные методы усреднения дают один и тот же результат: эмпирическое сравнение данных в тридцати различных областях позволило установить, что комбинированный прогноз снижает вероятность ошибки в среднем на 12,5 %²⁷⁴.

Простое нахождение среднего арифметического – не единственный способ обобщить значения прогнозов. Стратегия направленного выбора человека из толпы²⁷⁵ позволяет выделить лучших экспертов, руководствуясь точностью их недавних суждений, и найти среднее значение суждения небольшого коллектива (например, пяти человек). Подобный метод не менее эффективен, чем простое среднее арифметическое. Если человек, отвечающий за принятие решения, предпочитает полагаться на мнение компетентных судей, ему будет легче понять и принять стратегию, опирающуюся не только на обобщение мнений, но и на выбор лиц, их генерирующих.

Одним из методов подготовки обобщенного прогноза стало использование виртуальных рынков предсказаний – сообществ людей, заключающих пари на вероятный исход того или иного события, что дает им стимул для вынесения верной оценки. В основном такие объединения достаточно эффективны²⁷⁶: если рынок предсказаний полагает, что событие произойдет с вероятностью 70 %, то примерно в семидесяти случаях из ста оно действительно происходит. Многие компании различных отраслей промышленности пользуются информацией, поступающей с рынка предсказаний²⁷⁷ для обобщения различных точек зрения.

Другим общепринятым подходом обобщения некоторого множества взглядов стал известный метод «Дельфи»²⁷⁸. В классическом понимании данный способ подразумевает несколько этапов, в ходе которых участники анонимно направляют свои оценки (либо результаты голосования) организаторам. На каждом новом этапе участники (по-прежнему анонимно) предоставляют обоснования своих оценок и рассматривают точки зрения других экспертов. Метод дает возможность сузить расхождение мнений, требуя, чтобы новые суждения, формирующиеся участниками в следующем раунде, не выходили за диапазон, сложившийся по результатам раунда предыдущего. Метод «Дельфи» выигрывает за счет сочетания агрегирования с социальным научением.

Данная методика хорошо срабатывает во многих ситуациях, однако довольно сложна в реализации²⁷⁹. Существует упрощенная вариация – «Мини-Дельфи»²⁸⁰, предполагающая обработку мнений в течение единственной встречи экспертов. Эта версия также описывается формулой «оценка – обсуждение – повторная оценка». Основным ее требованием к участникам стало вынесение индивидуальной оценки (без предварительного обсуждения) с ее последующим объяснением и обоснованием. Второй этап заключается в модификации оценки на основе реакций и пояснений других участников. Консенсусом будет считаться среднее значение индивидуальных суждений, сложившихся в ходе второго раунда.

Проект «Верное суждение»

Некоторые наиболее инновационные исследования качества прогнозирования, выходящие за рамки рассказанного нами выше, начались в 2011 году, когда три выдающихся ученых-бихевиориста основали проект «Верное суждение». С Филипом Тетлоком мы уже познакомились в главе 11, обсуждая оценку долгосрочных прогнозов политических событий. Помимо Тетлока в группу вошла его супруга Барбара Меллерс, а также Дон Мур. Ученые поставили перед собой цель улучшить наше понимание природы прогнозирования и, в частности, причин появления хороших прогнозистов.

Проект «Верное суждение» начался с набора десятков тысяч добровольцев, не являющихся специалистами или экспертами, – самых обычных людей из самых разных слоев общества. Каждого из них попросили ответить на сотню примерно таких вопросов:

▣ Испытает ли Северная Корея ядерное оружие до конца текущего года?

▣ Аннексирует ли Россия какие-либо украинские территории в течение следующих трех месяцев?

▣ Станут ли Индия или Бразилия постоянными членами Совета Безопасности ООН в течение следующих двух лет?

▣ Выйдет ли в следующем году какая-либо страна из еврозоны?

Как видно из данных вопросов, проект сосредоточен на широком спектре мировых проблем. Важно отметить, что подобные вопросы отражают ту повестку, которая тревожит аналитиков во всем мире. Спросим адвоката: есть ли перспектива у его клиента выиграть дело в суде? Узнáем у специалистов телестудии, каковы шансы на популярность у нового телешоу. В обоих случаях нашему собеседнику потребуются аналитические способности. Тетлок с коллегами решили выяснить, действительно ли среди нас есть люди, которых можно считать особенно хорошими прогнозистами. Также ученые хотели понять, можно ли научить человека навыкам прогнозирования или хотя бы развить его врожденные способности.

Смысл основных выводов проекта станет ясен, если мы расскажем о некоторых ключевых особенностях метода, применяемого Тетлоком в целях оценки способностей к прогнозированию.

Во-первых, ученые собрали большое количество прогнозов, не ограничившись одним или несколькими, которым могла способствовать самая обычная удача либо, напротив, невезение. Если вы предсказали, что ваша любимая команда выиграет следующий матч и она действительно побеждает соперника – это еще не значит, что вы действительно хороший прогнозист. А если вы каждый раз даете прогноз в пользу любимой команды? Если ваша стратегия именно такова и команда побеждает в половине случаев, нельзя сказать, что ваши способности к прогнозу впечатляют. Следует отфильтровать фактор везения, поэтому исследователи и проверяют среднюю точность прогноза каждого участника эксперимента в пределах широкого спектра событий.

Во-вторых, ученые просят участников дать вероятностный прогноз, который не ограничивается ответом «случится» или «не случится». Для многих прогнозирование как раз и заключается в выборе одного из этих двух вариантов. В то же время, учитывая нашу объективную неосведомленность о наступлении событий в будущем, гораздо эффективнее формулировать вероятностные прогнозы.

Допустим, в 2016 году вы утверждали, что Хилари Клинтон с семидесятипроцентной вероятностью станет следующим президентом. Это не значит, что вы плохой прогнозист. Правильным станет следующий вывод: событие, которое сбудется в семидесяти случаях из ста, в тридцати случаях все же не произойдет. Если мы хотим знать, хорош ли прогнозист, нам потребуется выяснить, насколько его вероятностная оценка соответствует реальности. Предположим, условная Маргарет утверждает, что 500 различных событий произойдут с вероятностью 60 %. Если ее прогноз сбудется в отношении трехсот из них, придется сделать вывод, что вероятностное мышление Маргарет настроено вполне прилично. Подобная настройка – необходимое условие для хорошего аналитика.

В-третьих, отлаживая свой метод, Тетлок с коллегами не просто требовали от прогнозистов дать оценку вероятности наступления какого-либо события в течение, скажем, двенадцати месяцев. Ученые предоставили участникам возможность регулярно пересматривать свой прогноз в свете поступающей информации.

Предположим, в 2016 году вы спрогнозировали, что вероятность выхода Соединенного Королевства из Евросоюза до конца 2019 года составляет лишь 30 %. Идет время, мы получаем данные новых опросов, предполагающих, что движение за выход из Евросоюза набирает силу. Не исключено, что вы измените свою оценку в сторону повышения. Оглашается результат референдума, и он не добавляет ясности – действительно ли в Лондоне решат отделиться именно в обозначенный нами период. Однако вероятность все растет (кстати, технически Брексит состоялся в 2020 году).

По мере поступления новой информации Тетлок и его коллеги разрешали прогнозистам корректировать свои оценки. В целях составления рейтинга каждая корректировка приравнивалась к новому прогнозу. Таким образом, участников проекта «Верное суждение» побуждали внимательно следить за новостями и регулярно обновлять прогнозы. Подобный подход отражает требования к аналитикам в деловой среде и ожидания от прогнозов правительства. И те и другие обязаны достаточно часто обновлять свои оценки с учетом поступающих новостей и не должны обращать внимание на риск подвергнуться критике за перемену мнения. Кстати, отличным ответом на подобную критику служит заявление, приписываемое Джону Мейнарду Кейнсу: «Если изменяется фактическая обстановка, я меняю свое суждение. А как поступаете вы?»

В-четвертых, проект «Верное суждение» использовал для измерения эффективности прогнозистов систему, разработанную Гленном Брайером еще в 1950 году. Шкала Брайера определяет фактическую степень точности прогноза.

Упомянутая система представляет собой весьма разумный способ справиться с глобальной проблемой, присущей вероятностному прогнозу: обычно прогнозист подстраховывается, не пытаясь занять категоричную позицию. Вернемся к нашей Маргарет, которую мы посчитали умелым прогнозистом, предсказавшим шестидесятипроцентную вероятность наступления 500 событий, из которых 300 действительно случились. Подобный результат далеко не так внушителен, как нам представляется. Допустим, Маргарет стала синоптиком, постоянно оценивающим вероятность дождя в 60 %. Из 500 дней действительно выпадает 300 дождливых. Прогностическая способность Маргарет настроена неплохо, однако абсолютно бесполезна на практике. В сущности, она советует: «Каждый день, выходя из дому, на всякий случай берите с собой зонт». Сравним Маргарет с условным Николасом, который дает 300 абсолютно точных прогнозов: «Сегодня будет дождь», а еще 200 раз говорит: «Дождя не будет» и вновь не ошибается. Способности к прогнозу у Николаса отлажены не хуже, чем у Маргарет: любой из этой парочки предсказывает, что в Х% случаев пойдет дождь, и их прогноз сбывается. Тем не менее оценка Николаса имеет бóльшую ценность: он не осторожничает и четко говорит вам, когда именно брать с собой зонт. Скажем так: Николас, помимо способностей к прогнозированию, обладает еще и решимостью.

Шкала Брайера оценивает как хороший прогностический дар, так и решимость. Высокий балл наберет тот, кто не только дает верную среднюю оценку (способность к прогнозированию), но еще и склоняется к категоричным ответам, дифференцируя свои прогнозы (высокая решимость). Рейтинг Брайера берет за основу логику метода исчисления среднеквадратической ошибки. Чем ниже набранный балл, тем по данной шкале лучше: наивысшим баллом станет значение «0».

Итак, теперь мы знаем, как оценивают прогнозистов. Каковы же успехи добровольцев проекта «Верное суждение»? Одним из основных результатов исследования стала уверенность в том, что подавляющее большинство участников практически неэффективно, однако около 2 % выделяются из общего ряда. Мы уже говорили, что Тетлок называет таких людей суперпредсказателями. Нельзя утверждать, что их прогнозы абсолютно безошибочны, однако их верные оценки – далеко не просто везение. Примечательно, что один правительственный чиновник заявил: «группа Тетлока в среднем достигает куда лучших результатов²⁸¹, чем аналитики разведывательных служб, располагающие данными радиоперехвата и иной конфиденциальной информацией». Это сравнение заставляет задуматься. Аналитики разведслужб обучены выдавать точные прогнозы; это не какие-то любители. Кроме того, они имеют доступ к секретной информации и все же не могут приблизиться к результатам суперпредсказателей.