Книга: Hello World. Как быть человеком в эпоху машин
Назад: Правосудие
Дальше: Люди против машин

Уравнение правосудия

Алгоритм не может вынести приговор. Он не умеет сопоставлять доводы защиты и обвинения, анализировать доказательства, ему не понять, осознал ли подсудимый свою вину. Не ждите, что в обозримом будущем он заменит судью. Но что он может, как ни трудно в это поверить, – так это рассчитать риск повторного преступления, исходя из персональных данных человека. А поскольку суд нередко принимает решение на основании оценки вероятности того, что подсудимый вернется на путь преступления, иметь такую опцию весьма полезно.

Персональные данные и расчеты применяются в судействе уже почти столетие, впервые это начали делать в Америке еще в двадцатых годах прошлого века. При тогдашней американской системе подсудимых обычно приговаривали к максимальной мере наказания, они сколько-то отсиживали, после чего их отпускали “под честное слово”. На основании этого закона десятки тысяч заключенных выходили из тюрем раньше срока. Одни благополучно исправлялись, другие – нет. Но все вместе они представляли собой идеальный материал для эксперимента в естественных условиях, а вопрос был поставлен так: можно ли предсказать, нарушит ли заключенный взятые на себя обязательства?

Знакомьтесь – Эрнст Уотсон Бёрджесс, канадский социолог из университета Чикаго, хлебом не корми – дай составить прогноз. Бёрджесс был убежденным сторонником количественного анализа общественных явлений. Чего только он не прогнозировал за свою многолетнюю практику – от последствий выхода на пенсию до счастливых браков, – а в 1928 году впервые предложил эффективный метод оценки риска преступных действий, основанный не на интуиции, а на результатах измерений.

Бёрджесс собрал самые разнообразные сведения о трех тысячах обитателей иллинойсской тюрьмы и сформулировал двадцать один фактор, от которых, по его мнению, “возможно, зависит” вероятность нарушения условий условно-досрочного освобождения. Учитывались, в частности, вид правонарушения, срок пребывания в тюремной камере и социальный тип заключенного; с присущей социологу начала XX века деликатностью он выделил социальные типы – например, “бродяга”, “пьяница”, “бездельник”, “деревенщина” и “иммигрант”.

Каждому заключенному Бёрджесс поставил оценку от 0 до 1 по каждому пункту. Если сумма была достаточно велика – от 16 до 21, – то вероятность рецидива преступления Бёрджесс оценивал как низкую. Те, кто набрал низкие баллы – не больше 4, – по его мнению, наверняка нарушили бы правила условно-досрочного освобождения.

Когда все участники эксперимента вышли на свободу и при желании могли бы нарушить установленный законом порядок, у Бёрджесса появился шанс проверить достоверность своих прогнозов. Для столь примитивной методики он добился поразительной точности прогнозирования. В группе низкого риска 98 % осужденных успешно выдержали весь срок, в то время как две трети преступников из группы высокого риска сорвались. Оказалось, что даже самые приблизительные статистические модели позволили дать более точные прогнозы, чем это делали люди.

Однако у модели Бёрджесса нашлись и критики. Скептики спрашивали, все ли факторы, которые давали надежду на счастливый исход условно-досрочного освобождения, применимы всегда и везде? У них были свои резоны: не думаю, что определение “деревенщина” оказалось бы полезным при прогнозировании рецидивов преступлений в криминогенной среде неблагополучных городских кварталов. Другие ученые упрекали Бёрджесса за то, что он использовал все доступные ему данные, но не проверял, насколько они релевантны. Подвергали сомнению и сам метод оценки заключенных – в общем, это было всего лишь облеченное в формулы мнение специалиста. Тем не менее точность его прогнозов произвела столь сильное впечатление, что к 1935 году в иллинойсской тюрьме комиссия по условно-досрочному освобождению уже пользовалась его методикой. А к концу XX века математические модели, созданные на основе метода Бёрджесса, уже пошли в ход во всем мире.

Вернемся в наши дни – в залах судебных заседаний работают новейшие алгоритмы оценки рисков, куда более тонкие, чем первые схемы Бёрджесса. Оказывается, они не только облегчают работу комиссии по условно-досрочному освобождению, но и помогают определять, кого из заключенных можно освободить под поручительство и подбирать для них коррекционные программы, а в последнее время еще и подсказывают судьям, какой приговор вынести. Базовый принцип все тот же – загружается информация о подсудимом (возраст, история судимостей, тяжесть совершенного правонарушения и так далее), а на выходе получаем ответ на вопрос, насколько рискованно отпустить его на волю.

Как работают такие программы? Если не вдаваться в детали, в самых эффективных современных программах используется так называемый “метод случайного леса” (random forests), основанный на простейшей, в общем-то, идее. Обычное дерево решений.

Помощь зала

Возможно, в школе вам объясняли, что такое дерево решений. Учителя математики любят выстраивать по этому принципу схемы экспериментов, например, с подбрасыванием монетки или игрой в кости. Если один раз составить дерево решений, в дальнейшем можно будет использовать его в качестве блок-схемы – имея набор условий, вы шаг за шагом смотрите, что делать или, в нашем случае, что произойдет.

Допустим, вы хотите знать, можно ли освободить некое лицо под залог. Как и при условно-досрочном освобождении, решение принимается на основе прямого вычисления. Вина значения не имеет. Вас интересует только прогноз: нарушит ли обвиняемый условия освобождения под залог, если выпустить его из заключения?

Вам в помощь дана достаточная информация о множестве других арестованных, как о тех, кто, оказавшись на свободе, ударился в бега или снова совершил противоправные действия, так и о законопослушных. Располагая этими данными – характеристиками на каждого правонарушителя, – вы могли бы нарисовать дерево решений наподобие изображенного ниже и получить блок-схему. Имея дерево решений, вы сможете с его помощью предсказать поведение следующего правонарушителя. Выбирайте нужную ветвь соответственно имеющимся сведениям о нем, пока не придете к итоговому выводу. Прогнозы будут верными при условии, что характеристики объектов исследования сходны с предыдущими.





И тут наше школьное дерево решений начинает падать. Ведь, конечно же, не каждый правонарушитель в точности повторяет один из предыдущих сценариев. Само по себе такое дерево даст массу ошибочных прогнозов. И не потому, что мы начали с простейшего примера. Даже при наличии обширной базы данных о предыдущих делах и самого разветвленного алгоритма действий одно отдельно взятое дерево даст в лучшем случае чуть более точные ответы, чем простое угадывание.

Но вы получите совсем другой результат, если составите несколько деревьев. Можно использовать не все данные сразу, а применить метод разбиения, или декомпозиции. Сначала вы строите тысячи маленьких деревьев для различных подразделов общего набора данных – так называемый ансамбль. Затем, когда появляется очередной обвиняемый, вы предлагаете каждому дереву решить, стоит или нет отпускать его под залог. Вероятно, деревья проголосуют не единогласно, какие-то могут и не угадать, но вы усредните их ответы и тем самым существенно повысите точность прогноза.

Это похоже на “помощь зала” в игре “Кто хочет стать миллионером”. Полный зал незнакомых людей часто оказывается умнее одного вашего знакомого интеллектуала. Между прочим, вероятность правильного ответа в результате “помощи зала” составляет 91 %, а спасительная соломинка в виде “звонка другу” гарантирует удачу всего лишь в 65 % случаев. Ошибки многих зрителей взаимно компенсируют друг друга, и в конечном итоге оказывается, что много голов лучше одной.

Тот же принцип применим и к большой группе деревьев принятия решений, которые все вместе образуют случайный лес (забавный термин, не правда ли?). Алгоритмы формируют прогнозы на основе шаблонов, составленных при обработке массива данных, поэтому случайный лес – это алгоритм машинного обучения, который подпадает под более широкое понятие искусственного интеллекта. (В главе “Власть” мы уже упоминали “машинное обучение”, и нам еще не раз встретятся различные алгоритмы того же типа, но сейчас хотелось бы отметить, как солидно это звучит – при том что, в сущности, это просто знакомая вам со школы блок-схема, слегка приукрашенная математическими преобразованиями.) Алгоритмы случайного леса не раз доказали свою высокую эффективность в самых разных сферах жизни. С их помощью Netflix, анализируя ваши уже известные предпочтения, подсказывает вам, что посмотреть, Airbnb выявляет мошеннические аккаунты, а в медицине ставятся диагнозы (об этом нам предстоит поговорить в следующей главе).

Когда надо определить меру пресечения для правонарушителя, оказывается, что алгоритмы случайного леса имеют два колоссальных преимущества перед своими живыми “коллегами”. Первое – при равных условиях программа всегда выдает одинаковые решения. Гарантируется согласованность решений, но не в ущерб персональному рассмотрению дел. Второе важнейшее достоинство заключается в том, что прогнозы алгоритма еще и намного более точные.

Назад: Правосудие
Дальше: Люди против машин