Глава 17. Источники шума - Шум. Несовершенство человеческих суждений - Оливье Сибони - RutLib.com

Глава 17

Источники шума

Мы надеемся, вы уже не сомневаетесь, что там, где есть место суждению, найдется и шум. Мы также надеемся, что у вас его теперь не больше, чем вы думаете. Мантра о шумовых помехах вдохновила нас начать этот проект, однако за много лет работы тема значительно расширилась. Давайте повторим основные усвоенные уроки в отношении различных компонентов шума – о важности каждого из них в общем шумовом фоне и о месте шума в исследовании суждений.

Компоненты шума

На рисунке 16 схематично представлены три уравнения, рассмотренные в главах 5, 6 и 16, которые иллюстрируют три последовательных этапа разделения ошибок на компоненты:

• разбивка ошибок на смещение и системный шум;

• разбивка системного шума на межэкспертный и внутриэкспертный шум;

• разбивка внутриэкспертного шума на постоянный и ситуативный.

На рисунке показано, что MSE разлагается на¹⁸⁶ квадрат искажений и квадраты трех компонентов шума, рассмотренных ранее.

Рис. 16. Ошибки, искажения и компоненты шума

Начиная наши исследования, мы сосредоточились на относительных весах смещения и шумовых помех в составе ошибок. Мы также пришли к выводу, что доля шума в составе ошибок зачастую больше, чем доля смещения, и потому шум заслуживает более детального изучения.

Что касается компонентов шума, мы с самого начала руководствовались структурой комплексной ревизии шумовых помех, когда множество людей давали индивидуальные оценки по многим делам – например, при вынесении приговоров федеральными судьями или назначении суммы компенсации морального ущерба. Полученные в ходе этих исследований данные позволили дать комплексное обоснование межэкспертному шуму. С другой стороны, поскольку каждый участник эксперимента давал оценку каждому случаю, но только один раз, нельзя было сказать, являются ли постоянными или временными остаточные ошибки, которые мы назвали внутриэкспертными. При статистическом анализе (понимая его в консервативном смысле) остаточным ошибкам обычно дают некорректное название и трактуют как случайные. Другими словами, по умолчанию весь внутриэкспертный шум относят к ситуативным шумовым помехам.

Традиционная интерпретация внутриэкспертного шума как случайных ошибок долгое время препятствовала дальнейшему развитию нашей идеи. Казалось совершенно естественным сосредоточиться на межэкспертном шуме – стойком различии между строгими и снисходительными судьями или оптимистичными и пессимистичными прогнозистами. Однако нас также заинтриговал сам факт воздействия на оценки не относящихся к делу и временных обстоятельств, которые создавали ситуативные шумовые помехи.

Факты постепенно подводили нас к пониманию – «шумные» суждения, которые дают различные люди, в значительной степени зависят от чего-то еще, что нельзя отнести на счет необъективности конкретного человека и что также не является временным и случайным, а представляет собой стойкую персональную реакцию на множество факторов, определяющую действия индивидуума в отдельных случаях. В конечном счете мы пришли к выводу, что от нашего сделанного по умолчанию допущения о временной природе внутриэкспертного шума следует отказаться.

Хотя мы старались быть осторожными и не переусердствовать в генерализации на весьма ограниченной выборке, совокупные результаты большого числа исследований все же наводят на мысль, что постоянный внутриэкспертный шум и в самом деле более значим, чем прочие компоненты системного шума. Поскольку полная картина компонентов ошибок нечасто присутствовала в одном и том же исследовании, потребовалось несколько триангуляций, чтобы сформулировать предварительное заключение. Итак, перед вами то, что мы знаем – и чего не знаем.

Систематизация компонентов шума

Прежде всего, нам удалось определить относительный вес межэкспертного и внутриэкспертного шумов. В общем выяснилось, что внутриэкспертный шум вносит больший вклад в общую сумму помех, чем межэкспертный. Например, в страховой компании (см. главу 2) отклонения от средней суммы страховых премий, назначенных разными андеррайтерами, составляли всего 20 % от системного шума в целом; оставшиеся 80 % приходились на внутриэкспертный шум. А среди федеральных судей (см. главу 6) межэкспертный шум (отклонения от средней строгости) составлял немногим меньше половины системного шума в целом; внутриэкспертный шум оказался более значительным компонентом. В эксперименте с назначением компенсации морального ущерба общее количество системного шума варьировалось в широких пределах в зависимости от используемой шкалы (мера наказания, степень возмущения или сумма компенсации в долларах), однако доля внутриэкспертного шума была приблизительно постоянной: 63 %, 62 % и 61 % от системного шума в целом для каждой из трех шкал.

Тот факт, что в этих исследованиях межэкспертный шум не самый существенный компонент, уже сам по себе много значит, поскольку межэкспертный шум – единственная форма шума, которую организации могут хотя бы иногда контролировать, не проводя ревизию шумовых помех. Когда задачи распределяются между отдельными специалистами по более-менее случайному принципу, отклонение от среднего уровня в решениях доказывает присутствие межэкспертного шума. Например, при изучении работы патентных ведомств¹⁸⁷ наблюдался большой разброс от среднего уровня предрасположенности экспертов к выдаче патентов, которые в дальнейшем приходилось оспаривать в суде. Аналогично служащие органов опеки¹⁸⁸ различались по настойчивости, с которой они стремились отдать ребенка в приемную семью, с далеко идущими последствиями для благополучия детей. Подобные наблюдения основаны исключительно на оценках межэкспертного шума. Если же доля внутриэкспертного шума превышает долю межэкспертного, то эти и без того шокирующие открытия преуменьшают проблемы шумовых помех минимум в два раза. (Из этого предварительного правила есть исключения. Непозволительным разбросом в решениях о предоставлении убежища¹⁸⁹ практически однозначно мы обязаны в основном межэкспертному шуму, а не внутриэкспертному, которого, как мы подозреваем, тоже хватает.)

Следующий этап анализа внутриэкспертного шума – разложение его на два компонента. Есть веские основания предполагать, что здесь доминирует постоянный внутриэкспертный шум, а не ситуативный. Наши соображения иллюстрирует ревизия шумовых помех, содержащихся в приговорах федеральных судей. Начнем с крайности и допустим, что весь внутриэкспертный шум преходящий. Из такого допущения следует, что мера наказания непостоянна и варьируется с немыслимой амплитудой, ведь тогда ожидаемый средний разброс в сроках заключения по одному и тому же делу, рассматриваемому одним и тем же судьей, в различных обстоятельствах составит около 2,8 года!¹⁹⁰ Вариативность среднего показателя среди судей сама по себе уже шокирует. Такой же разброс для одного конкретного судьи в зависимости от обстоятельств был бы просто абсурдным. Кажется более разумным заключить, что судьи непостоянны в своих реакциях на различные преступления и различных обвиняемых и что это непостоянство в высшей степени зависит от личности судьи, однако является для него стабильным.

Для оценки доли постоянного и ситуативного шумов в составе внутриэкспертного нам нужно провести эксперимент, в котором одни и те же судьи выносят два независимых приговора по каждому делу. Как мы отмечали, создать такие условия в эксперименте, как правило, невозможно, поскольку нет гарантии, что второй приговор будет в полном смысле слова независим от первого. Велика вероятность – особенно в сложных делах, – что судья узнает задачу и повторит свой первоначальный вердикт.

Группа исследователей из Принстона¹⁹¹ под руководством Александра Тодорова разработала смелые экспериментальные методы для преодоления этого затруднения. Они привлекли участников с Amazon Mechanical Turk, интернет-платформы, где исполнители выполняют небольшие задания – например, заполнение анкет, – получая оплату за затраченное время. В одном эксперименте участники рассматривали изображения человеческих лиц, сгенерированные компьютерной программой, однако неотличимые от лиц реальных людей, и оценивали их по различным параметрам, например внешней привлекательности и честности (иными словами, можно ли этому человеку доверять). Эксперимент был повторен неделей позже с теми же самыми лицами и теми же респондентами.

Вполне справедливо ожидать в подобном эксперименте меньше согласованности среди участников, чем в профессиональных суждениях, таких как вынесение приговоров в суде. Каждый согласится, что одни люди очень привлекательны, а другие выглядят отталкивающе, однако в пределах области значимости мы ожидаем, что реакция на лица будет весьма индивидуальной. И в самом деле, среди респондентов обнаружилось мало согласия: скажем, при оценке честности разброс по изображениям насчитывал лишь 18 % от всех отклонений. Оставшиеся 82 % представляли из себя шумовые помехи.

Точно так же справедливо ожидать от результатов эксперимента меньшего постоянства в оценках, поскольку качество оценок исполнителей, которым платят за ответы онлайн, зачастую существенно ниже, чем у профессионалов. И тем не менее самым существенным компонентом шума стал постоянный внутриэкспертный шум. Вторым по значимости стал межэкспертный шум, то есть различия среди наблюдателей в средних оценках честности. Ситуативный шум, хотя и оставался существенным, был самым небольшим из компонентов.

Исследователи пришли к тем же самым выводам, когда задавали респондентам другие вопросы, к примеру, какие машины им нравятся или какие блюда они предпочитают, или более близкие к задачам, с которыми работают профессионалы. Скажем, в повторении исследования о назначении компенсации морального ущерба, рассмотренного нами в главе 15, респонденты оценивали меру наказания для десяти случаев причинения вреда здоровью; опрос проходил в два этапа, разделенных неделей. И опять постоянный внутриэкспертный шум стал самым значительным компонентом. Во всех исследованиях участники в основном не соглашались друг с другом, однако оставались практически постоянными в своих собственных оценках. Такое «постоянство без единодушия», как выразились исследователи, свидетельствует о явном наличии постоянного внутриэкспертного шума.

Наиболее убедительные доказательства роли постоянного внутриэкспертного шума содержатся в большом исследовании по проблеме освобождения обвиняемых под залог¹⁹², упомянутом в главе 10. В одной из частей этой внушительной работы авторы создали статистическую модель, которая симулировала работу судей, а именно то, как в принятии решения каждый из них использовал доступную ему информацию. Они создали индивидуальные модели 173 судей. Затем заставили модели вынести решения¹⁹³ по 141 833 делам, в итоге получив 173 решения по каждому делу – всего более 24 миллионов решений. По нашей просьбе авторы любезно выполнили специальный анализ, в котором разделили разбросы оценок на три группы: «верные» оценки (близкие к среднему по каждому делу), межэкспертный шум, возникавший от различия в предрасположенности судей отпустить обвиняемого под залог, и оставшийся внутриэкспертный шум.

Анализ имеет прямое отношение к нашим доводам, поскольку межэкспертный шум, измеряемый в ходе этого исследования, оставался постоянным. Случайное присутствие ситуативного шума здесь ничего не значит, поскольку это анализ моделей, предсказывающих решения судей. Включены только поддающиеся проверке постоянные индивидуальные критерии прогнозирования.

Выводы были недвусмысленными: постоянного внутриэкспертного шума¹⁹⁴ оказалось почти в четыре раза больше, чем межэкспертного (26 % против 7 % от общего отклонения). Идентифицированные в ходе эксперимента постоянные и уникальные шаблоны принятия решений давали гораздо больше шума, чем общие различия в строгости.

Все факты согласуются с рассмотренным в главе 7 исследованием ситуативного шума: хотя существование ситуативного шума удивляет и даже тревожит, нет признаков того, что здесь внутриэкспертная составляющая превышает межэкспертную. Зато в отношении системного шума мы с самого начала пренебрегли его наиболее важным компонентом, а именно постоянным внутриэкспертным шумом, или расхождением среди судей в их оценке определенных дел.

Учитывая относительную нехватку релевантных исследований, наши выводы не заключительные, однако они отражают изменение нашего понимания шумовых помех и того, как с ними бороться. В принципе межэкспертный шум, или, проще говоря, общие различия между судьями, не должны представлять серьезной проблемы в плане измерения и действий по устранению. Если встречаются аномально «несговорчивые» оценщики, «бдительные» сотрудники органов опеки, «не расположенные к риску» представители кредитных организаций, то учреждения, принимающие на работу этих людей, должны стремиться подогнать уровень их решений под средний. Например, университеты справляются с проблемой, требуя от преподавателей придерживаться заранее установленного распределения оценок на каждом курсе.

К сожалению, – как мы теперь понимаем, – зациклившись на межэкспертном шуме, легко упустить из виду важную проблему, а именно проблему индивидуальных различий. Шум в основном является продуктом не межэкспертных различий, а взаимодействий: различные судьи взаимодействуют с конкретными обвиняемыми, учителя со школьниками, социальные работники с семьями, руководители со своими конкретными планами на будущее. Шум – это в основном побочный продукт нашей уникальности, нашей «шумной натуры». Сокращение межэкспертного шума – достойная цель, но преследование только одной этой цели оставит без решения бóльшую часть возникающих из-за системного шума проблем.