В 2017 году ученые решили проверить, насколько компьютерные прогнозы могут конкурировать с решениями судей.
Для эксперимента исследователям предоставили доступ к досье всех, кто был арестован в Нью-Йорке за пятилетний период с 2008 по 2013 год. За это время по вопросу об освобождении под залог перед судом предстали три четверти миллиона человек, так что материала для тестирования программы в противоборстве ее с судом человеческим было предостаточно.
В нью-йоркском судопроизводстве по этим делам алгоритмы не использовались, но исследователи взялись за создание множества деревьев принятия решений задним числом, чтобы проверить, насколько хорошо алгоритм справился бы с прогнозом рисков нарушения обвиняемыми условий освобождения под залог. В компьютер загрузили информацию о подсудимых – истории приводов в полицию, сведения о последнем преступлении и прочее. Машина рассчитала вероятность того, что обвиняемый не будет соблюдать условия освобождения под залог.
В реальности 408 283 обвиняемых были освобождены из-под ареста еще до суда. Любой из них запросто мог сбежать или совершить новое противоправное деяние – стало быть, мы оказываемся в выгодном положении, так как знаем, чем дело кончилось, и можем сравнить точность рассчитанных прогнозов и судейских решений. Нам доподлинно известно, кто впоследствии не явился в суд (15,2 %) и кого арестовали вновь за повторное правонарушение в период освобождения под залог (25,8 %).
К сожалению ученых, в то время судьи не удовлетворяли ходатайство об освобождении под залог, если обвиняемый не заслуживал доверия, поэтому для тех, кто остался под арестом до суда, не удалось на практике проверить, было ли постановление суда справедливым. Это несколько осложняло исследование. Невозможно было дать объективную количественную оценку точности решений суда в целом. Если нет фактов, которые подтвердили бы или опровергли прогноз поведения этих арестованных, нельзя точно определить и общую погрешность результатов эксперимента. В таком случае остается только предполагать, как повели бы себя эти люди, если бы их освободили под залог, и сравнительный анализ работы машин и судей можно выполнить только косвенным путем.
Впрочем, не вызывало сомнений, что люди и машины рассудили по-разному. Как показали исследователи, суд не увидел серьезных рисков в поведении тех арестованных, кого алгоритм счел действительно опасными преступниками. Собственно, судьи выпустили почти половину тех заключенных, кого алгоритм записал в группу наибольшего риска.
Но кто же прав? Как показали факты, программа не зря беспокоилась за определенный сегмент. Больше 56 % людей из этой группы не явились в суд, а 62,7 %, выйдя на волю, принялись за старое – и совершили в том числе такие тяжкие преступления, как изнасилование и убийство. Алгоритм все это просчитал.
Авторы эксперимента утверждали, что их алгоритм по своим возможностям превосходит живых судей при любых вариантах его применения. Их вывод подкрепляется цифрами. Если ваша цель – сократить численность арестованных, содержащихся под стражей до суда, алгоритм отправит за решетку на 41,8 % обвиняемых меньше при тех же показателях преступности. А если процент выпущенных под залог вас устраивает, тоже хорошо – тогда алгоритм поможет снизить долю нарушений условий залога на 24,7 % просто за счет более обоснованного отбора тех, кого можно освободить.
Это не просто теоретические рассуждения. В Род-Айленде подобные программы используются судами в течение восьми последних лет, и загруженность тюрем сократилась на 17 %, а частота рецидивов преступлений – на 6 %. А это сотни человек из группы низкого риска, которых нет нужды лишать свободы, и сотни несовершённых преступлений. К тому же, если учесть, что в Великобритании содержание одного заключенного под стражей обходится казне в 30 000 фунтов в год – а в США год заключения в тюрьме строгого режима может стоить намного дороже, чем обучение в Гарварде, – экономятся огромные суммы денег налогоплательщиков. Это победа – и выигрывают все.
В самом деле?
Конечно, ни один алгоритм не может абсолютно безошибочно предсказать действия любого человека. Люди слишком безалаберны, непоследовательны и эмоциональны, для того чтобы уверенно прогнозировать их ближайшее будущее. Компьютер дает более точные прогнозы, но может и ошибиться. Вопрос в том, что станется со всеми теми гражданами, для кого неверно оценили потенциальные риски.
Ошибки алгоритмов можно разделить на две категории. Ричард Берк, профессор криминологии и статистики из Пенсильванского университета, первопроходец в области прогнозирования рецидивной преступности, предложил эффектный способ описания таких ошибок.
“Бывают хорошие парни и плохие, – объяснил он мне. – Фактически алгоритм решает, кто Дарт Вейдер, а кто Люк Скайуокер”.
Одна из возможных ошибок – освободить из-под ареста Дарта Вейдера, то есть дать ложноотрицательный прогноз. Это происходит тогда, когда вы не сумели разглядеть в личности человека потенциальную опасность.
С другой стороны, если оставить в заключении Люка Скайуокера, это будет ложноположительный прогноз. Так бывает, когда алгоритм ошибочно включает человека в группу высокого риска.
Ошибки этих двух типов – ложноположительная и ложноотрицательная оценки – характерны не только для сферы – рецидивной преступности. В нашей книге мы еще не раз с ними столкнемся. От них не застрахован ни один алгоритм, предназначенный для классификации.
Алгоритмы Берка претендуют на точность прогноза убийств 75 %, то есть это одни из самых эффективных методов в этой области. Впечатляющий уровень точности, если принять во внимание, какой свободой воли мы, по нашему убеждению, обладаем. Но даже при такой точности прогноза очень многие Люки Скайуокеры остаются за решеткой только потому, что, на первый взгляд, похожи на Дартов Вейдеров.
Когда к алгоритму обращаются не просто с вопросом о залоге или условно-досрочном освобождении, а выносят приговор на основе его расчета, последствия ошибочной характеристики обвиняемого могут быть более драматичны. Пример из современной жизни: с недавних пор в некоторых американских штатах судам уже разрешают при назначении срока заключения учитывать рассчитанную для данного обвиняемого степень риска. Это нововведение вызвало горячие споры, и на то есть основания: одно дело доверить программе решать, кого можно освободить досрочно, а другое – в принципе рассчитать срок лишения свободы.
Проблема отчасти в том, что на выбор срока заключения влияет не только вероятность повторного преступления – ее-то алгоритмы как раз умеют рассчитывать, – а еще множество разных условий. Судья должен принять во внимание потенциальную опасность преступника для общества, сдерживающее действие приговора на других потенциальных правонарушителей, надежду на возмездие со стороны жертвы преступления и шансы обвиняемого на исправление. Слишком много факторов на весах – неудивительно, что чересчур большие полномочия компьютеров в правосудии вызывают возражения. И неудивительно, что такие примеры, как дело Пола Дзилли, вызывают настороженность.
Дзилли обвинялся в краже газонокосилки. В феврале 2013 года он стоял перед судьей Бэблером в округе Бэррон, штат Висконсин, и ему уже было известно, что его адвокаты заключили досудебное соглашение с обвинением. Обе стороны полагали, что в его случае длительное пребывание в тюрьме было бы не лучшим решением. Дзилли не сомневался, что судья просто утвердит это соглашение.
К несчастью для него, в судах Висконсина использовался запатентованный алгоритм оценки рисков под названием COMPAS. Механизм его работы строго засекречен, это коммерческая тайна, как было и в случае с инструментом бюджетного регулирования, применявшимся в Айдахо (см. главу “Власть”). Но в отличие от инструмента бюджетного регулирования программа COMPAS закрыта для широкой публики до сих пор. Мы знаем лишь, что расчеты выполняются на основании анкетирования обвиняемых. В анкете был, в частности, такой вопрос: “Голодный человек имеет право на кражу – вы согласны или не согласны?” Или: “Если вы жили с обоими родителями и они разошлись, сколько вам было лет на тот момент?” Программу разработали исключительно ради того, чтобы оценивать вероятность рецидива правонарушения в течение двух лет, и точность расчета этого параметра составляла примерно 70 %. Это означает, что примерно в каждом третьем случае оценка была неверной. Тем не менее судьи, назначая подсудимому наказание, пользовались этой программой.
Дзилли получил плохую оценку. Алгоритм предсказал ему высокий риск насильственного преступления в будущем и средний риск повторного общеуголовного правонарушения. “Я смотрю на оценку риска, – сказал судья Бэблер на заседании суда, – и хуже быть не может”.
Результаты расчета по делу Дзилли вызывали у судьи больше доверия, чем соглашение между защитой и обвинением, и он аннулировал соглашение, а Дзилли наказал вдвойне сурово – назначил ему два года в тюрьме штата вместо одного в окружной тюрьме.
Трудно сказать, действительно ли Дзилли заслужил столь высокую оценку риска, хотя точность расчетов 70 % явно невелика для того, чтобы вердикт программы перевешивал в суде другие обстоятельства.
Дело Дзилли широко комментировалось в СМИ, но это только одно из многих подобных дел. В 2003 году Кристофер Дрю Брукс, 19 лет, вступил в половую связь с четырнадцатилетней девочкой по обоюдному согласию, и суд штата Вирджиния судил его по обвинению в совращении несовершеннолетней. В таких случаях директивы по назначению наказания предписывают тюремное заключение сроком от семи до шестнадцати месяцев. Но была принята во внимание оценка риска (на этот раз вычисленная в другой программе, не в COMPAS), и рекомендованный срок скорректировали – подняли верхний предел до двух лет. С учетом этих обстоятельств судья приговорил Брукса к полутора годам тюремного заключения.
Дело здесь вот в чем. В данном случае основным фактором при расчете риска рецидива был возраст обвиняемого. Юный возраст Брукса, которого судили за преступление на половой почве, оказался для него минусом, хотя на самом деле это означало, что он и его партнерша были почти ровесниками. Вот если бы ему стукнуло 36 – то есть он был бы на 22 года старше той девочки, – программа рекомендовала бы вовсе не отправлять его в тюрьму.
Не в первый и не в последний раз люди предпочли мнение компьютера своему собственному. Спрашивается, что можно с этим сделать? Верховный суд Висконсина имеет мнение на этот счет. По поводу угроз, которые несет в себе чрезмерное доверие судьи программе COMPAS, было вынесено резюме: “Окружным судам, использующим программу COMPAS для оценки рисков, следует действовать по своему усмотрению с учетом личности каждого обвиняемого”. Впрочем, Ричард Берк считает такой подход излишне оптимистичным: “Суды, и особенно судьи, которых избирают граждане, стараются избегать ошибок. Алгоритм позволяет им сократить объем работы и снять с себя лишнюю ответственность”.
Есть еще вот какой вопрос. Если алгоритм включит кого-нибудь в группу высокого риска и судья лишит этого человека свободы, мы никогда не узнаем, насколько точен был прогноз. Взять хотя бы Дзилли. Возможно, он совершил бы насильственное преступление. А возможно, и нет. Возможно, клеймо опасного преступника и отсидка в тюрьме штата повлияли на всю его дальнейшую жизнь, и, если бы было принято досудебное соглашение, его судьба сложилась бы иначе. Мы не можем проверить машинные прогнозы, поэтому не можем знать, был ли прав судья, когда принял на веру оценку высокого риска, мы так и не знаем, кем был Дзилли – Дартом Вейдером или Люком Скайуокером.
Здесь нет простого и ясного решения. Как убедить людей в том, что, работая с подобными программами, они должны включать здравый смысл? Но если нам и удастся это сделать, остается еще один вопрос. Пожалуй, наиболее дискуссионный.