Предвзятость машин

В 2016 году независимое онлайн-издание ProPublica, которое впервые рассказало о Дзилли, занялось подробным исследованием программы COMPAS и воспроизвело методику оценки потенциальных рисков для семи с лишним тысяч преступников, чьи дела слушались в период с 2013 по 2014 год во Флориде. Журналисты решили выяснить, кто из них совершал повторные правонарушения, чтобы проверить, насколько точен был прогноз. Но кроме того, их интересовало, различались ли оценки для белых и чернокожих обвиняемых.

Хотя в явном виде расовая принадлежность в алгоритме не учитывалась, журналисты обнаружили, что в процессе расчетов не все случаи воспринимались одинаково. В целом вероятность ошибки для чернокожих и белых подсудимых была приблизительно одной и той же, но, оценивая людей из разных расовых групп, программа ошибалась по-разному.

Для темнокожих обвиняемых из группы Люков Скайуокеров, у кого первый арест стал последним конфликтом с полицией, вероятность ошибочного включения в группу высокого риска возрастала вдвое по сравнению с такими же, но белыми правонарушителями. Ложноположительные результаты расчетов оказались смещены в черный сектор. И наоборот, белые Дарты Вейдеры, в течение двух лет после выхода на свободу совершившие новое преступление, имели в два раза больше шансов попасть по ошибке в группу низкого риска, чем чернокожие Вейдеры. Ложноотрицательные оценки преобладали в белом секторе.

Неудивительно, что статьи в ProPublica подняли волну негодования как в Америке, так и за ее пределами. В сотнях публикаций резко осуждалась равнодушная методика расчетов и звучали призывы прекратить использование в правосудии несовершенных и необъективных программ, ведь от вынесенного приговора зависит судьба человека. Трудно не согласиться с валом критики – каждый обвиняемый, независимо от того, кто или что рассматривает его дело, заслуживает честного и объективного суда, и в расследовании журналистов ProPublica складывается неблагоприятная для алгоритма картина.

Но остережемся пока списывать в утиль “несовершенную программу”. Прежде чем отринуть саму идею применения компьютеров в судействе, надо подумать о том, каким должен быть объективный алгоритм.

Конечно, хотелось бы, чтобы прогнозы в отношении всех людей с любым цветом кожи были одинаково точные. Логично также потребовать, чтобы термин “высокий риск” тоже трактовался для всех одинаково. Программа должна эффективно вылавливать потенциальных рецидивистов, невзирая на их расу и прочие социальные признаки. Кроме того, как писала ProPublica, частота и характер ошибок при расчетах не должны зависеть от расовой принадлежности.

Вроде пока мы не требуем ничего сверхвозможного. Однако не все так очевидно. К сожалению, некоторые условия объективности несовместимы с точки зрения математики.

Сейчас объясню. Предположим, вы останавливаете прохожих и с помощью своего алгоритма оцениваете вероятность того, что они кого-нибудь убьют. Поскольку подавляющее большинство убийц – мужчины (действительно, по всему миру 96 % убийств совершают мужчины), то при условии, что программа для выявления убийц работает хорошо, в группе высокого риска неизбежно окажется больше мужчин, чем женщин.

Предположим, точность прогнозов для нашего алгоритма составляет 75 %. Иначе говоря, три четверти тех, кому она присвоила высокие значения риска, действительно являются Дартами Вейдерами.

Рано или поздно, приставая к прохожим, вы наберете 100 потенциальных (с точки зрения программы) убийц. Согласно статистике, 96 из них должны быть мужчинами, а 4 – женщинами. Посмотрите на иллюстрацию справа. Черные кружки соответствуют мужчинам, светло-серые – женщинам.

Далее, поскольку программа дает прогнозы для мужчин и женщин с одинаковой точностью 75 %, то четверть всех женщин и четверть всех мужчин на самом деле окажутся Люками Скайуокерами – то есть опасности для общества они не представляют, а в возможные убийцы их записали на основании неверного расчета.

По второй диаграмме после несложных подсчетов вы можете увидеть, что против мужчин будет выдвинуто больше незаслуженных обвинений, чем против женщин – по той простой причине, что вообще среди убийц мужчин больше, чем женщин.

Это сухой математический факт, не имеющий никакого отношения ни к преступности, ни к компьютерным программам. Перекос в результате вытекает из перекоса в жизни. Убийства чаще совершают мужчины, поэтому мужчин чаще подозревают в том, что они могут совершить убийство.

С математической точки зрения невозможно разработать тест, который будет одинаково точно работать для всех слоев общества и при этом выдавать одинаковый процент ложноположительных и ложноотрицательных прогнозов во всех группах обвиняемых, если только в каждой такой группе доля людей, совершивших преступление, не будет одной и той же.

Афроамериканцы, безусловно, веками испытывали на себе гнет неравенства и предвзятого отношения. По этой причине до сих пор в нижних социально-экономических стратах и на верхних строках криминальной статистики большинство составляют афроамериканцы. Кроме того, некоторые факты свидетельствуют о повышенном интересе полиции к гражданам с темной кожей – по крайней мере в США, в определенных видах преступности. Скажем, и черные, и белые курят марихуану на равных, однако афроамериканцы попадаются на ней в несколько раз чаще, чем белые, и эта разница может быть восьмикратной. Каковы бы ни были причины диспропорции, в США, как ни грустно, показатели приводов в полицию различаются в зависимости от расы. За повторные правонарушения черных арестовывают чаще, чем белых. Алгоритм не судит их по цвету кожи – он руководствуется теми факторами, которые стали логичным следствием выраженного социального неравенства, исторически сложившегося в Америке. Пока во всех социальных и расовых группах показатели по арестам не сравняются, подобная необъективность останется в силу законов математики.

Это не умаляет важности проделанной интернет-изданием работы. Журналистское расследование показало, как легко алгоритмы закрепляют былое неравенство. Но и для алгоритма это тоже не оправдание. Если компания зарабатывает на анализе персональных данных, то, с точки зрения морали (если уж не закона), она обязана отвечать за свои промахи и недостатки методики расчета. Однако компания Equivant (бывшая Northpointe), разработчик алгоритма COMPAS, по-прежнему держит его детали в строжайшем секрете под предлогом защиты интеллектуальной собственности.

Здесь возможны варианты. Алгоритмы такого типа не содержат каких-либо неотъемлемых элементов, из-за которых обязательно должны были бы проявиться пережитки прошлого. Все зависит только от исходных данных. Мы можем оставаться, как выразился Ричард Берк, “твердолобыми эмпириками” и довольствоваться имеющимися показателями, а можем признать несправедливость нынешней ситуации и с учетом этого скорректировать цифры.

В качестве иллюстрации попробуем поискать в Google картинки по запросу “профессор математики”. Вы получите несметное множество изображений белого мужчины средних лет на фоне исписанной формулами доски – хотя, возможно, ничего другого вы и не ждали. В первой двадцатке картинок я обнаружила одну-единственную женщину, что отражает реальность с удручающей достоверностью: среди профессоров математики примерно 94 % – мужчины. Однако при любой точности расчета можно было бы возразить, что алгоритм – не самое подходящее зеркало для нашего мира, особенно если отраженная в нем нынешняя реальность – всего лишь результат многовекового неравноправия. Но Google при желании мог бы слегка подправить свой алгоритм, так чтобы первыми показывались ссылки с профессорами женского пола или другой расы, немного уравновесить таким образом поиск и создать картину не реального мира, а мира нашей мечты.

В судебной системе происходит то же самое. В сущности, алгоритм позволяет нам поставить вопрос так: какая доля данной социальной прослойки предположительно попадет в группу высокого риска при абсолютно справедливом устройстве общества? Программа может сразу выдать численный ответ. Или, если нам кажется, что нецелесообразно одним махом исключать все перекосы в судопроизводстве, можно велеть алгоритму идти к конечному результату поэтапно.

Кроме того, к оценке подсудимых из группы высокого риска тоже можно подходить по-разному. В случае освобождения под залог, когда главный фактор для машинного прогноза – это риск неявки обвиняемого в суд в назначенный день и час, стандартным решением станет отказ всем обвиняемым из группы высокого риска. Однако можно было бы предусмотреть в алгоритме и выяснение вероятных причин неявки в суд. Есть ли у подсудимого возможность приехать в суд? Может быть, родительские обязанности помешали ему явиться вовремя? Нельзя ли написать программу так, чтобы социальные диспропорции не усугублялись, а сглаживались?

Ответы на эти вопросы скорее найдутся не на советах директоров частных компаний, а в открытых общественных дискуссиях и на заседаниях правительства. Отрадно, что все громче звучат призывы наладить в этой сфере контроль за компьютерными программами. Подобно тому, как Управление по контролю качества продуктов питания и лекарств (FDA) следит за состоянием дел в американской фармацевтике, аналогичный регулирующий орган, не вынося сор из избы, проверял бы, насколько верны, согласованны и справедливы решения, и обладал бы полномочиями одобрять или запрещать применение того или иного программного продукта в работе с живыми людьми. А пока этого не произошло, очень хорошо, что ProPublica и ей подобные организации неустанно привлекают алгоритмы к ответу. Ровно до тех пор, пока не будет выдвинуто требование запретить все алгоритмы, которым инкриминировали несправедливые оценочные методики. По крайней мере, стоит хорошенько подумать, куда они могут нас завести, если мы их сохраним.