В нашем путешествии сквозь виртуальную жизнь мы посетили школу и колледж, суды и кафе, банки и офисы, даже избирательные участки. Но везде мы видели, какие разрушения производит оружие математического поражения. Обещая эффективность и справедливость, оно на самом деле разрушает высшее образование, увеличивает долги и число заключенных, наносит множественные удары по беднякам и подрывает демократические устои. Может показаться, что логическим ответом на такой ущерб было бы запрещение этих видов оружия, одного за другим.
Проблема заключается в том, что эти виды подпитывают друг друга. Бедные люди с большей вероятностью будут иметь плохую кредитную историю и жить в опасном районе, по соседству с другими бедными людьми. Как только темная вселенная ОМП переварит эту информацию, она забросает их хищнической рекламой микрокредитов или коммерческих колледжей. ОМП пришлет полицию, чтобы арестовать этих людей, а если им вынесут приговор, то оно же позаботится о том, чтобы они получили как можно более длительный срок. Эти данные, в свою очередь, будут использованы другим видом ОМП, который определит этих людей как потенциально рискованных клиентов и в результате будет препятствовать их трудоустройству, одновременно вздувая для них процент по ипотеке и автомобильным кредитам, увеличивая стоимость самых разных страховок. Это еще сильнее ухудшит их кредитную историю, и возникнет настоящий порочный круг моделирования. Быть бедным в мире ОМП становится все опаснее и обходится все дороже.
Но то же самое оружие математического поражения, которое прицельно бьет по беднякам, помещает представителей более высоких слоев общества в их собственные отсеки на рынке. ОМП отправляет их в отпуск на Арубу, вставляет в очередь на поступление в Уортонскую школу бизнеса. Многим из этих людей мир в результате покажется гораздо более простым и разумно устроенным. Математические модели не дадут им прозевать скидки на прошутто и кьянти, порекомендуют отличный фильм на Amazon Prime и приведут их, одного за другим, в кафе в районе, который раньше считался подозрительным. Ненавязчивая и персонифицированная сущность этой адресации не дает людям, которые занимают высокое место в обществе, увидеть, как эти же самые модели уничтожают жизни других людей – зачастую буквально в нескольких кварталах от их местонахождения.
Национальный девиз США – E pluribus unum, «Из многих – единое». Но оружие математического поражения придает этому девизу противоположный смысл. В своей темной работе оно впечатывает одно и то же во множество разных людей, в то же время скрывая от нас вред, который оно наносит нашим соседям, и близким, и далеким. Этот ущерб огромен и разнообразен. Это ущерб одинокой матери, которая не может найти детский сад, подходящий для ее безумного рабочего расписания; это ущерб молодому человеку, которому отказывают даже в низкооплачиваемой работе на основе данных личностного теста. Мы видим этот вред, когда подростка – представителя этнического меньшинства останавливают на улице, обыскивают и ставят на учет в местном отделении полиции или когда работник заправки, живущий в бедном районе, вынужден платить за дорогую страховку. Это бесшумная война, которая поражает бедных сильнее всего, но также бьет и по среднему классу. Ее жертвы по большей части не обладают экономическими возможностями, им трудно пробиться к хорошему юристу или хорошо финансируемой политической организации, которые помогли бы им сражаться за свои права. В результате ущерб, причиняемый ОМП, слишком часто считают неизбежным. Мы не можем рассчитывать на то, что эти недостатки исправит свободный рынок. Чтобы понять, почему это так, давайте сравним проблему ОМП с другой проблемой, которую пытается преодолеть наше общество, – проблемой гомофобии.
В сентябре 1996 года, за два месяца до переизбрания, президент Билл Клинтон подписал закон о защите брака. Этот закон, определявший брак как союз между одним мужчиной и одной женщиной, сулил президенту поддержку в консервативных кругах неопределившихся штатов, в том числе Огайо и Флориды.
Всего через неделю технологический гигант IBM объявил, что предоставит льготы по медицинскому страхованию для однополых партнеров среди своих сотрудников. Возможно, вы удивились, с какой стати «Голубой гигант», столп корпоративного истэблишмента, открыто начал обсуждать столь неоднозначную проблему, в то время как предположительно прогрессивный американский президент явно двигался в противоположном направлении.
Ответ надо искать на рынке. В 1996 году золотая интернет-лихорадка только начиналась, и такие компании, как IBM, Oracle, Microsoft, Hewlett-Packard, а также несколько стартапов, среди них Amazon и Yahoo, сражались за интеллектуальные ресурсы. Бо́льшая часть этих компаний уже предоставила различные льготы для однополых партнеров и таким образом смогла привлечь в число своих сотрудников немало талантливых геев и лесбиянок. IBM не могла остаться в стороне. «С точки зрения деловой конкуренции это имело для нас смысл», – признался официальный представитель IBM в интервью журналу BusinessWeek.
Если представить себе кадровую политику IBM и подобных гигантских корпораций в виде набора алгоритмов, то дискриминация неизменно входила в состав их кода в течение десятилетий. Конкуренция за работников подтолкнула их к более справедливым решениям. С тех пор геи и лесбиянки добились впечатляющего прогресса во многих областях. Конечно, прогресс этот и сегодня нельзя назвать абсолютно последовательным. Многие представители ЛГБТ в Америке до сих пор страдают от предубеждений, насилия и оружия математического поражения. Особенно это касается бедняков и представителей этнических меньшинств. Однако в то самое время, когда я пишу эти строки, гей по имени Тим Кук является президентом самой дорогой компании мира – корпорации Apple. И если у него возникнет такое желание, он может воспользоваться своим конституционным правом и заключить брак с другим мужчиной. Иными словами, мы видим, что корпорации вполне способны совершать решительные движения в сторону исправления несправедливости в своих алгоритмах приема на работу, – так почему же подобным образом не подправить математические модели, которые причиняют вред всему нашему обществу?
К сожалению, тут имеется серьезное отличие. Предоставление равных прав представителям ЛГБТ-сообщества во многом шло на пользу компаниям. Имелось немалое количество хорошо образованных и все громче заявляющих о себе талантливых геев и лесбиянок, которых корпорации жаждали принять на работу. Поэтому они оптимизировали свои модели, чтобы привлечь этих людей. Но при этом главным фактором все равно оставалось извлечение прибыли. Справедливость в большинстве случаев была просто побочным продуктом. Кстати, примерно в это же время самые разные предприниматели по всей стране обратили свое внимание на ЛГБТ-потребителей и стали предлагать им круизы, «счастливые часы», сериалы с гей-тематикой и тому подобное. И хотя эта толерантность вызвала недовольство у менее терпимых людей, с точки зрения бизнеса это сулило большие дивиденды.
Обезвреживание ОМП не всегда предполагает столь очевидную отдачу. Конечно, чем больше справедливости, тем больше пользы для общества в целом, однако это вовсе не обязательно полезно для той или иной конкретной компании. Совсем наоборот, для большинства из них оружие математического поражения – это очень эффективный инструмент. На нем основаны целые бизнес-модели – будь то коммерческие колледжи или микрокредиты. И когда программное обеспечение успешно находит людей, достаточно отчаявшихся, чтобы взять в долг под 18 % в месяц, то люди, которые купаются в прибыли от этого бизнеса, считают, что система работает отлично.
Жертвы, конечно, имеют совсем другое мнение. Но абсолютное большинство из них – это люди с почасовой оплатой или вообще безработные, обреченные на пожизненно низкий кредитный скоринг. Это бедняки. Это заключенные, которые и вовсе беззащитны. В результате в нашем обществе, где деньги покупают влияние, у жертв ОМП практически нет голоса, который может быть услышан. Они практически лишены гражданских прав. Слишком часто бедных обвиняют в том, что они бедные, что они сами виноваты, что учились в плохих школах, в том, что преступления захлестывают районы, в которых они живут. Именно поэтому мало кто из политиков вообще думает о стратегиях борьбы с бедностью. Согласно общепринятому мнению, бедность – это скорее заболевание, и нужно прилагать усилия – во всяком случае, на словах – к тому, чтобы не допустить распространения этого заболевания на средний класс.
Но бедняки далеко не единственные жертвы ОМП. Мы уже видели, как порочные модели могут отказать в работе квалифицированному претенденту или снизить зарплату сотруднику, который не отвечает корпоративным представлениям об идеальном здоровье. Эти ОМП бьют по среднему классу с такой же силой, как и по беднякам. Даже богачи оказываются жертвами микротаргетинга в рамках политических моделей. И они так же судорожно, как и все мы, пытаются умилостивить безжалостное оружие математического поражения, которое командует набором в колледжи и наносит ущерб качеству высшего образования.
Также важно отметить, что это только начало. В конце концов, компании микрокредитования тоже начинали с бедняков и иммигрантов. У них меньше доступа к информации, и многие из них находятся в отчаянном положении. Это самые простые цели – так сказать, фрукты, висящие на нижних ветках. Но те виды оружия математического поражения, которые дают наибольшую прибыль, вряд ли надолго остановятся на низших слоях. Рынок так не работает. Они будут развиваться, распространяться и постоянно искать новые возможности. Мы уже видели, как это происходит с банками основного звена, которые вкладывают средства в организации, занимающиеся кредитованием между физическими лицами – такие как Lending Club. Короче говоря, ОМП нацелено на всех нас. И оно продолжит размножаться, сея несправедливость, пока мы не предпримем шаги, чтобы его остановить.
Несправедливость, следствие алчности или предубеждений, сопровождала нас всегда. Можно согласиться, что ОМП ничем не хуже человеческой злобы и предрассудков недавнего прошлого. В конце концов, во многих случаях банкир, предоставляющий кредит, или менеджер отдела кадров на постоянной основе исключали из рассмотрения целые расы (не говоря уже обо всех женщинах). Даже самые неудачные математические модели, скажут многие, в сравнении с такой несправедливостью не так уж плохи.
Но принятие решений человеком при всех недостатках имеет одно большое достоинство. Оно может эволюционировать. Человеческие существа учатся и адаптируются – и с ними меняются наши процессы. Автоматические же системы застревают в неизменном состоянии, пока инженеры как-то их не меняют. Если бы модель Больших данных по приему в колледжи была создана в начале 1960-х, многие женщины до сих пор не получали бы высшее образование, потому что модель в основном ориентировалась бы на успешных мужчин. Если бы музеи в то же время оформили в виде кода общепринятое представление о том, что такое великое искусство, мы до сих пор любовались бы практически исключительно на работы белых мужчин – людей, которых спонсировали богатые покровители. И, конечно, даже не стоит упоминания, что футбольная команда Алабамского университета была бы по-прежнему исключительно белой.
Процессы, основанные на Больших данных, кодифицируют прошлое. Они не изобретают будущее. Чтобы сделать последнее, нужно моральное воображение – то, чем обладают только люди. Нам нужно, безусловно, включать главные ценности в наши алгоритмы, создавать такие модели Больших данных, которые будут следовать за нашим этическим развитием. Иногда это будет означать приоритет справедливости над прибылью.
В каком-то смысле сейчас наше общество столкнулось с новой промышленной революцией. И мы уже можем извлечь из нее некоторые уроки. Начало XX века было временем небывалого прогресса. Люди смогли осветить свои дома электричеством и согреть их углем. Железные дороги отправляли на экспорт мясо, овощи и консервы. Для многих людей хорошая жизнь становилась еще лучше.
И в то же время этот прогресс имел не столь красивую изнанку. Он обеспечивался чудовищной эксплуатацией рабочих, причем многие из них были детьми. В отсутствие нормального здравоохранения и правил техники безопасности угольные шахты были смертельными ловушками. В одном только 1907 году погибли 3242 шахтера. На бойнях люди работали по 12–15 часов в день, в антисанитарных условиях, и мясные продукты, которые отправлялись с этих боен, часто тоже были отравлены. Компания Armour поставила в армию Соединенных Штатов тонны испорченной консервированной тушенки, заглушив запах тухлятины с помощью борной кислоты. Тем временем ненасытные монополисты узурпировали железные дороги, энергетические компании и городскую инфраструктуру и взвинтили ставки для потребителей до такой степени, что это стало настоящим налогом на всю национальную экономику. Было очевидно, что свободный рынок не может справиться с этими злоупотреблениями. И лишь когда такие журналисты, как Ида Тарбелл и Эптон Синклер, вскрыли эти и подобные проблемы, в ситуацию вмешалось государство. Оно установило протоколы техники безопасности и санитарные инспекции по контролю качества пищи, а также запретило детский труд. С ростом движения профсоюзов, а также принятием законов, которые их охраняли, наше общество двинулось в сторону восьмичасового рабочего дня и двух выходных в неделю. Эти новые стандарты защищали компании, которые не хотели эксплуатировать работников или продавать испорченную еду, потому что конкурентам приходилось следовать тем же правилам. И хотя это, без сомнения, повысило стоимость ведения бизнеса, общество в целом выиграло. Очень немногие из нас хотели бы вернуться во времена до принятия этих норм.
Как нам приступить к регулированию математических моделей, которые все больше управляют нашими жизнями? Я бы предложила начать с самих создателей этих моделей. Как и врачи, специалисты по анализу данных должны давать нечто вроде клятвы Гиппократа, сосредоточенной на возможных ошибках в использовании и интерпретации моделей. После краха 2008 года два финансовых аналитика, Эммануэль Дерман и Пол Уилмотт, составили такую клятву. Она гласит:
Я буду помнить о том, что не я сотворил мир – и он не укладывается в мои уравнения. Хотя я буду смело использовать модели, чтобы оценивать стоимость, я не буду слишком сильно попадать под влияние математики. Я никогда не пожертвую реальностью ради элегантности, не объяснив, почему я так поступаю. Также я никогда не буду уверять людей, которые пользуются моей моделью, в том, что она абсолютно точна. Вместо этого я подробно расскажу о погрешностях и недостатках модели. Я понимаю, что моя работа может иметь огромные последствия для общества и экономики и многие из этих последствий окажутся за пределами моего понимания.
Это хорошая философская основа. Но твердые моральные устои и самоконтроль – удел лишь порядочных. Более того, клятва Гиппократа игнорирует постоянное давление, которое часто оказывается на специалистов по анализу данных, когда начальники заставляют их выдать конкретные ответы. Чтобы уничтожить ОМП, недостаточно установить идеальные правила игры в одной только области Больших данных. Наши законы тоже нуждаются в переработке. А чтобы это произошло, мы должны пересмотреть наши критерии успеха.
Сегодня успех модели зачастую оценивается по параметрам прибыльности, эффективности или процента неудач. Это всегда нечто, что можно посчитать. Однако что именно нам нужно считать? Давайте рассмотрим следующий пример. Когда пользователь ищет в интернете информацию о продовольственных талонах, поисковик часто показывает ему рекламу лидогенераторов типа FindFamilyResourses из города Темпе, штат Аризона. Этот сайт выглядит вполне официально и предлагает заполнить подлинные государственные анкеты. Но он также собирает имена и адреса электронной почты, чтобы затем использовать для хищнической рекламы, включая рекламу коммерческих колледжей. Он получает немалую прибыль, навязывая избыточные услуги людям, многие из которых вскоре будут атакованы предложениями услуг, которые они вряд ли могут себе позволить.
Успешен ли этот бизнес? Зависит от того, что считать успехом. Каждый клик на объявление приносит Google 25 или 50 центов – а иногда даже доллар или два. Это успех. И, конечно, лидогенераторы тоже делают деньги, так что колеса коммерции вовсю крутятся.
В то же время с точки зрения пользы для общества обычный интернет-поиск каких-либо услуг правительства, образно говоря, рисует большие мишени на спинах бедняков, обольщая часть из них лживыми обещаниями, и в результате все это кончается кредитом под гигантский процент. Даже если смотреть исключительно с экономической точки зрения, это явное истощение нашей системы. Сам факт, что людям нужны продуктовые талоны, в первую очередь демонстрирует провал рыночной экономики. Правительство, используя доллары налоговых поступлений, пытается как-то это компенсировать – в надежде, что люди, получающие продуктовые талоны, в будущем смогут полностью себя содержать. Но лидогенераторы подталкивают их к ненужным сделкам, зачастую оставляя в еще более глубоких долгах – и еще более нуждающимися в правительственной помощи. Оружие математического поражения, генерируя прибыль для поисковиков, собирателей потенциальных клиентов и предпринимателей, одновременно высасывает соки из экономики в целом.
Система регулирования ОМП могла бы измерять подобные скрытые убытки. Это уже используется в других типах государственного вмешательства. Хотя экономисты могут попытаться подсчитать, во что обходится обществу загрязнение воздуха или сельскохозяйственные стоки, эти цифры никогда не опишут подлинный урон. И то же самое часто касается справедливости и общественной пользы в математических моделях. Это концепции, которые могут существовать только в человеческом сознании, – и их невозможно точно подсчитать. При этом люди, которые занимаются созданием моделей, редко даже пытаются делать такие подсчеты – это считается слишком сложным. Но нам необходимо включить человеческие ценности в эти системы, даже ценой снижения эффективности. Например, модель может быть запрограммирована так, чтобы представители разных этнических групп или разных уровней дохода были справедливо представлены в рядах избирателей или потребителей. Или она может протоколировать случаи, когда люди в определенных районах проживания платят в два раза дороже за определенные услуги. Эти приближения могут быть грубыми, особенно поначалу, но они необходимы. Математические модели должны быть нашими инструментами, а не нашими хозяевами.
Разрыв в уровне школьной успеваемости, большое число заключенных в тюрьмах и апатия избирателей – все это серьезные национальные проблемы, которые не решит ни свободный рынок, ни математические алгоритмы. Поэтому первым делом следует взяться за нашу технологическую иллюзию – безграничную и безосновательную веру в то, что алгоритмы и технологии могут все. Прежде чем просить их исправить какую-то ситуацию, нам нужно признать, что они не всесильны.
Чтобы обезвредить ОМП, нам также нужно оценить его влияние, а для этого необходим аудит алгоритмов. Первый шаг здесь – провести исследования. Давайте представим себе ОМП как черные ящики, которые перерабатывают загруженную в них информацию и выдают заключения. Вот у этого заключенного преступника средняя вероятность рецидива в будущем, этот гражданин с 73-процентной вероятностью будет голосовать за республиканцев, а рейтинг вон того учителя – в нижней десятке. Изучив эти выводы, мы сможем собрать воедино все погрешности модели и оценить ее справедливость.
Иногда с самого начала становится совершенно понятно, что определенные виды оружия математического поражения нужны лишь для того, чтобы легче увольнять целые группы людей, а другим предлагать скидки. Модель оценки коэффициента роста знаний учеников, принятая в нью-йоркских общеобразовательных школах, например, – та самая модель, которая присудила Тиму Клиффорду катастрофические шесть баллов, а на следующий год триумфальные 96 баллов, – это не что иное, как статистический фарс. Если мы расположим результаты, которые учителя получают в разные годы, на графике, точки будут расположены примерно так же хаотично, как атомы водорода в комнате. Даже многие школьники, изучающие в этих самых школах математику, взглянув на подобную «статистику», с уверенностью сказали бы, что такие результаты не означают просто ничего. В конце концов, хорошие учителя обычно бывают хорошими и в этом году, и в следующем. В отличие от, допустим, игроков в бейсбол, они редко чередуют удачные сезоны с провальными (и еще одно отличие учителей от бейсболистов заключается в том, что работа первых плохо поддается количественному анализу).
Подобную негодную модель невозможно исправить. Единственный выход в таком случае – вообще отказаться от несправедливой системы. Давайте забудем по крайней мере на 10–20 лет об инструментах для измерения эффективности учителя. Это слишком сложная задача для моделирования, и у нас нет для этого достаточно точной информации, только грубые приближения. Модель просто пока недостаточно хороша для того, чтобы принимать важные решения о людях, которым мы доверяем образование наших детей. Эта работа требует комплексного подхода с учетом сложного контекста. Даже в эпоху Больших данных такие проблемы умеют решать только люди.
Конечно, аналитики должны рассматривать множество данных, включая и результаты тестов учеников. Они должны включать в свой анализ благотворные петли обратной связи (этих «добрых кузенов» тех губительных петель обратной связи, с которыми мы так близко познакомились). Благотворная обратная связь просто предоставляет информацию специалисту по данным (или автоматической системе), чтобы модель могла быть улучшена. В этом случае достаточно будет просто опросить как учителей, так и учеников, имеют ли для них смысл эти рейтинги; понимают ли и принимают ли они стоящие за рейтингами критерии. Если не понимают и не принимают – то как это можно улучшить? Только когда мы получим экосистему с благотворной обратной связью, мы сможем ожидать, что данные помогут улучшить работу учителей. А до тех пор система имеет только карательную функцию.
Конечно, защитники Больших данных тут же напомнят нам, что человеческий мозг сам включает в себя модели и эти модели зачастую окрашены предрассудками и предвзятостями. Поэтому человеческие суждения – в данном случае оценка учителей – тоже должны проверяться на справедливость. И эти проверки должны быть тщательно разработаны и протестированы именно людьми, а уж потом автоматизированы. Математики вполне могут заняться разработкой моделей, которые помогут учителям измерить собственную эффективность и улучшить ее.
Другие проверки гораздо более сложны. Возьмите, к примеру, модели вероятности криминального рецидива, которыми руководствуются судьи во многих штатах, готовясь вынести приговор. Из-за относительной новизны этих моделей нам пока сложно сравнивать «до» и «после». Изменилась ли статистика приговоров с тех пор, как они стали получать рекомендации от ОМП? Мы обнаружим, без всякого сомнения, что какое-то число судей имело в голове те же опасные модели задолго до появления ПО – и наказывало бедняков и представителей меньшинств более строго, чем остальных преступников. В некоторых из этих случаев, возможно, модель может смягчить их суждения. В других случаях – нет. По мере роста количества информации закономерности станут более ясными и позволят нам оценить мощность и направленность ОМП.
Если мы обнаружим (а исследования это уже показали), что модели рецидивизма кодифицируют предрассудки и наказывают бедных, значит, настало время изучить вводную информацию. В данном случае модели предсказывают поведение отдельного человека по принципу «одного поля ягоды» – по аналогии с людьми, с которыми он знаком, по месту его работы и кредитному рейтингу, то есть по критериям, которые бы не принял к рассмотрению ни один суд. Справедливость требует, чтобы эту информацию исключили. Постойте, скажут нам, вы что, собираетесь пожертвовать точностью модели ради справедливости? В самом деле, стоит ли намеренно притуплять наши алгоритмы?
В некоторых случаях – да. Если мы хотим равенства перед законом, хотим равенства в качестве избирателей, то мы не можем защищать системы, которые распределяют нас в разные касты и с каждой обращаются по-разному. Amazon и Netflix вправе раскладывать своих клиентов по сколь угодно малым группам и продавать им все что угодно. Но аналогичный алгоритм не может обеспечивать справедливость или демократию.
Движение по направлению к ревизии алгоритмов уже набирает обороты. Исследователи из Принстонского университета, например, запустили программу по изучению прозрачности и ответственности в Сети. Созданные ими боты «притворяются» людьми самых разных социологических типов – богатыми, бедными, мужчинами, женщинами, людьми с нестандартной психикой. Анализируя, как относятся к этим ботам поисковые системы и сайты по трудоустройству, можно обнаружить порочные детали моделей. Подобные проекты разрабатываются и в других академических учреждениях – университете Карнеги – Меллон и Массачусетском технологическом институте.
Научная поддержка подобных инициатив имеет огромное значение. В конце концов, чтобы обезвредить оружие математического поражения, нам нужны люди, умеющие создавать такое оружие. Такие люди способны извлечь из моделей ОМП достаточно большие массивы данных, чтобы можно было выявить несправедливости и другие перекосы, заложенные в модели. Имеет смысл запустить краудсорсинговые кампании, чтобы люди по всей стране могли в деталях рассказать о том, какие послания они получают от рекламщиков или политиков. Это может высветить методы и стратегии кампаний микротаргетирования.
Не все эти кампании обязательно порочны. Например, после президентских выборов 2012 года компания ProPublica проанализировала таргетированные политические обращения, использовавшиеся в ходе кампании за избрание Обамы. Разные группы, как выяснилось, слышали хвалебные высказывания о президенте от разных знаменитостей – каждое из них, предположительно, было адресовано определенной группе. Предоставив общественности статистическую информацию и развеяв загадочность, окружавшую модель, ProPublica уменьшила (пусть и совсем немного) основания для темных слухов и подозрений. Это уже хорошо.
Если рассматривать математические модели как двигатели цифровой экономики – а во многих аспектах это так и есть, – то в процессе аудита мы открываем капот и демонстрируем, как именно работает этот двигатель. Это принципиально важный шаг – затем нам предстоит снабдить эти мощные двигатели рулем и тормозами.
Аудит, однако, встречает сопротивление, в том числе и со стороны сетевых гигантов. Google, например, не позволил исследователям составить рейтинг ботов, чтобы можно было начертить «карту предвзятости» поискового алгоритма компании. Если же та или иная компания все-таки соглашается пройти проверку на предвзятость, она предпочитает, чтобы это была внутренняя проверка. Таким образом от посторонних защищаются внутренние механизмы действия алгоритма – и его предвзятости. Однако люди, находящиеся внутри системы, страдают, как и все мы, от предвзятости подтверждения и с большей вероятностью увидят то, что ожидают обнаружить. Они вряд ли будут задавать самые острые вопросы. И если они обнаружат несправедливости, которые, судя по всему, увеличивают прибыль Google… что ж, в таком случае это может привести к неприятным обсуждениям – из тех, что определенно лучше скрыть от общественности. Все это весомые деловые аргументы в пользу секретности. Однако по мере того как люди будут узнавать все больше об оружии математического поражения и требовать все большей прозрачности от информационно-коммуникационных компаний, я надеюсь, что у Google практически не останется выбора – ему придется впустить к себе людей со стороны.
То же касается и Facebook. Принципиальная политика этой социальной сети – привязывать пользователей к их реальным именам – жестко ограничивает исследования, которые могут провести в ней люди со стороны. Требование настоящего имени со многих точек зрения заслуживает восхищения, и не в последнюю очередь потому, что подталкивает пользователей к большей ответственности за то, что они публикуют у себя на страницах. Но и Facebook должен быть подотчетен всем нам – а это значит, что он должен открыть свою платформу большему числу аудиторов.
Правительство, конечно, может сыграть важную роль в регулировании – как и в годы первой промышленной революции, когда оно столкнулось со множеством человеческих трагедий. Оно может начать с усовершенствования уже существующих законов, а затем следить за их последовательным применением.
Как мы уже обсуждали в главе, посвященной кредитным историям, законы, защищающие права потребителей – такие как Закон об объективной кредитной отчетности (FCRA) и Закон о равном доступе к кредитам (ECOA), – должны были обеспечить справедливость кредитного скоринга. Закон FCRA гарантирует, что потребитель может видеть, какие данные включаются в его скоринг, – и исправить ошибки, если они там есть, – а ECOA запрещает ассоциировать кредитный рейтинг с расой или полом потребителя.
Эти регулирующие меры неидеальны и отчаянно нуждаются в доработке. Жалобы потребителя часто игнорируются, и ничто не помешает компании, занимающейся составлением кредитных рейтингов, использовать почтовые индексы в качестве прокси для расовой принадлежности. Итак, во-первых, мы должны требовать прозрачности. Каждый из нас должен иметь право получать уведомление, когда наш кредитный скоринг используется, чтобы составить о нас какое-либо суждение или провести проверку. И каждый из нас должен иметь доступ к информации, которая используется для подсчета нашего скоринга. Если эта информация неверна, то мы должны иметь право подать апелляцию и исправить ошибку.
Во-вторых, регулирующие нормы должны быть расширены, чтобы они охватили и такие новые типы кредитных компаний, как Lending Club, который использует новомодные e-scores для предсказания вероятности того, что мы не вернем кредит. Таким компаниям не должно быть позволено действовать в серой зоне. Закон о защите прав граждан с ограниченными возможностями (ADA), который защищает таких людей от дискриминации на работе, также нуждается в доработке. Сегодня он запрещает медицинское освидетельствование как обязательное условие трудоустройства. Но нам нужно внести в закон поправки, касающиеся личностных тестов, а также рейтинга здоровья и репутации. Все компании, использующие такие данные, в данный момент обходят закон, и нельзя им этого позволять. Одна из возможностей, которая сейчас уже обсуждается, включает в себя «предсказуемые» проблемы со здоровьем в будущем. Другими словами, если анализ генома показывает, что у человека высокий риск заболеть раком груди или болезнью Альцгеймера, это не должно мешать ему устроиться на работу.
Мы также должны расширить Закон о праве сохранения и защите данных медицинского страхования (HIPPA), который защищает нашу медицинскую информацию, чтобы распространить его на данные, которые собирают работодатели, приложения, посвященные здоровью, и другие компании Больших данных. Любая относящаяся к здоровью информация, собираемая брокерами данных, такая как, например, история наших поисков в интернете о методах лечения какой-либо болезни, должна быть защищена.
Если мы хотим принять еще более серьезные меры, нам стоит подумать о движении в сторону европейской модели, согласно которой все собираемые персональные данные должны быть официально одобрены пользователем. Эта модель также запрещает использование информации для каких-то иных целей. Конечно, требование согласия пользователя на использование информации часто означает, что пользователь автоматически кликает на галочку «я согласен», не вчитываясь в малопонятное пользовательское соглашение. И тем не менее запрет на новое использование информации – мощная запретительная мера. Она сразу делает незаконной продажу информации о пользователях, не позволяет получить доступ к этой информации брокерам данных, которые подпитывают токсичные e-scores и кампании политического микротаргетирования. Из-за этого запрета брокеры данных в Европе гораздо более ограничены в своей деятельности – если, конечно, не нарушают закон.
И, наконец, модели, которые оказывают серьезное влияние на наши жизни, включая кредитный скоринг и e-scores, должны быть открыты и доступны для общественности. В идеале мы должны иметь возможность управлять ими через мобильное приложение на нашем телефоне. В какой-нибудь трудный момент пользователь сможет, например, посмотреть: если я не оплачу вовремя вот этот счет за телефон или электричество – как это отразится на моем кредитном скоринге? И если он понизится, то как это скажется на запланированной покупке новой машины? Такие технологии уже существуют. Все, чего нам не хватает, – это воли применить их.
Летним днем 2013 года я отправилась на метро в южную часть Манхэттена и вошла в большое административное здание напротив нью-йоркской мэрии. Я собиралась построить математические модели, которые помогали бы обществу, – своего рода противоположность оружию математического поражения. Для этого я стала практикантом-волонтером в группе анализа данных в департаментах жилья и социального обеспечения мэрии. Число бездомных в городе в этот момент достигло 64 тысяч человек, включая 22 тысячи детей. Моя работа заключалась в том, чтобы помочь создать модель, которая сможет предсказать, на какой срок той или иной бездомной семье потребуется помощь системы призрения и какая именно помощь ей понадобится. Идея заключалась в том, чтобы дать людям все необходимое для того, чтобы они могли позаботиться о себе и о своих семьях, найти постоянное жилище.
Моя работа во многом состояла в том, чтобы построить модель риска рецидива – примерно такую же, как модель LSI-R. Подобно аналитикам, создававшим эту модель, я хотела узнать, какие силы толкают людей на улицу, а затем обратно в приют, а какие ведут к стабильности и постоянному жилью. Однако наша маленькая группа не собиралась строить оружие математического поражения, призванное удлинять тюремные сроки, – мы были сосредоточены на том, чтобы использовать наши выводы для помощи тем, кто попал в беду, и для сокращения числа бездомных и отчаявшихся. Нашей целью было создание модели для общественного блага.
Работая над другим проектом на схожую тему, один из исследователей обнаружил одну чрезвычайно сильную корреляцию, подсказавшую решение проблемы. Определенная группа бездомных семей имела тенденцию исчезать из приютов и никогда в них не возвращаться. Это были люди, которым давали ваучеры по федеральной жилищной программе (Закон о доступном жилье от 1937 года, так называемая «Секция 8» (Section 8)). Это не удивляло: если вы предоставляете бездомным семьям доступное жилье, немногие из них снова выберут улицу или убогие приюты.
Однако эта логика чем-то смутила тогдашнего мэра Майкла Блумберга и его администрацию. Городские власти, сопровождая процесс шумной пиар-кампанией, начали закрывать программу «Секция 8», установив взамен новую систему под названием «Преимущество» (Advantage), которая ограничила субсидии сроком в три года. Идея заключалась в том, что бедные люди, зная, что финансовая помощь скоро закончится, будут стараться больше зарабатывать и скоро начнут платить за жилье самостоятельно. Однако факты показали, что это был слишком оптимистичный прогноз. А тем временем бурно развивающийся рынок недвижимости Нью-Йорка вздувал стоимость аренды жилья, что еще больше осложняло переход к новой системе. Семьи, у которых не было ваучеров «Секции 8», отправились обратно в приюты.
Наше открытие было принято городскими чиновниками без всякого энтузиазма. Для встречи в мэрии наша группа подготовила презентацию, посвященную положению бездомных в Нью-Йорке. После того как мы продемонстрировали слайд со статистикой рецидива и эффективности «Секции 8», у нас состоялся чрезвычайно неловкий (и весьма недолгий) разговор. От нас потребовали удалить этот слайд. Линия партии осталась неизменной. Большие данные, которые при мудром с ними обращении могут помочь сделать важные открытия, снова продемонстрировали свою разрушительную силу. В конце концов, они направлены на поиски закономерностей, невидимых человеческому глазу. Сложная задача для специалистов по данным заключается в том, чтобы разобраться в экосистемах, которые создают эти данные, и выявить не только проблемы, но и их возможные решения. Простой анализ трудового процесса в компании может показать, что в штатном расписании есть пятеро явно лишних работников. Но если команда по анализу данных пригласит эксперта, тот разработает более конструктивную версию модели, которая не уволит этих людей, а предложит им работу в оптимизированной системе, а заодно определит, какая переподготовка им понадобится, чтобы занять эти рабочие места. Иногда работа специалиста по анализу данных заключается в том, чтобы знать, когда ты недостаточно знаешь.
Исследуя экономику данных, я вижу множество математических моделей, которые могут быть использованы для благих целей, и не меньше моделей с большим потенциалом стать таковым – если их не применять во вред. Возьмите для примера работу Миры Бернштейн, которая занимается трудовым рабством. Гарвардский доктор математики Бернштейн построила модель, которая сканирует масштабные производственные цепочки – например, сборку мобильных телефонов, изготовление кроссовок, автомобильный конвейер – и обнаруживает в них эпизоды принудительного труда. Бернштейн построила свою модель рабства для некоммерческой организации «Сделано в свободном мире» (Made in a Free World). Цель этой организации – помочь компаниям избавиться от вклада рабского труда в своей продукции. Разумеется, речь о том, что компания и сама с энтузиазмом готова очистить себя от подобного пятна – не только потому, что она против рабства, но и потому, что это может замарать бренд.
Бернштейн собрала данные из нескольких источников – экономическая информация ООН, статистика по регионам с наивысшим процентом принудительного труда, детальная информация о компонентах тысяч промышленных товаров – и внесла все это в модель, оценивающую вероятность того, что определенный продукт из определенного региона может быть изготовлен с участием рабского труда. В интервью журналу Wired Бернштейн рассказывала:
Идея заключается в том, что пользователь свяжется со своим поставщиком и скажет: «Расскажите мне подробнее о том, где вы раздобыли вот эти детали от ваших компьютеров?» Как и многие другие ответственные модели, детектор рабства не делает далеко идущих выводов. Он просто указывает на подозрительные места – а завершающую часть охоты должны провести люди.
Некоторые компании, несомненно, обнаружат, что казавшийся подозрительным поставщик действует в рамках закона (все модели таки или иначе производят ложноположительные результаты). Вся информация возвращается в организацию «Сделано в свободном мире», где Бернштейн изучает обратную связь.
Еще одна модель, нацеленная на общественное благо, появилась в сфере социальной помощи. Это предиктивная модель, которая указывает на семьи, где дети с наибольшей вероятностью могут подвергаться насилию. Модель, разработанная некоммерческой организацией Eckerd, занимающейся помощью детям и семьям, начала работу в 2013 году в округе Хиллсборо (пригород Тампы, штат Флорида). За предыдущие два года девять детей в этом районе погибли от насильственных действий – в том числе младенец, которого просто выбросили из окна автомобиля. Создатели модели включили в свою базу данных 1500 случаев насилия над детьми, в том числе со смертельным исходом. Они обнаружили некоторое количество маркеров, указывающий на высокий риск ненадлежащего обращения с детьми, включая наличие у матери сожителя, задокументированные в прошлом употребление наркотиков и случаи домашнего насилия, а также тот факт, что родитель в детстве находился в системе патронажного воспитания.
Если бы это была программа выявления потенциальных преступников, вы бы сразу увидели, какой она могла бы быть несправедливой. То, что родитель жил в детстве у временных приемных родителей или проживает с партнером, не должно быть поводом для подозрений. Более того, эта модель с гораздо большей вероятностью выявит бедняков – и пропустит потенциальные случаи насилия в богатых районах.
Однако если поставить целью не наказание родителей, а помощь детям, то потенциальное оружие математического поражения превращается в полезный инструмент. За два года, прошедшие с начала применения модели, в округе Хиллсборо, по данным газеты Boston Globe, не было ни одного случая насилия над детьми со смертельным исходом.
Модели, подобные этой, в изобилии появятся в будущем. Они будут оценивать наш риск заболеть остеопорозом или получить инсульт, поспешат на помощь студентам, готовящимся к экзамену, и даже предскажут, кто с большей вероятностью пострадает от серьезных жизненных неудач. Многие из этих моделей, как и некоторые из видов ОМП, которые мы обсуждали, будут созданы из самых лучших побуждений. Но они должны также быть прозрачными: наглядно демонстрировать, какая именно информация в них заложена, а также раскрывать полученные результаты. В конце концов, это мощные механизмы – и мы должны за ними присматривать.
Данные никуда не денутся. Как и компьютеры, и, конечно, математика. Предиктивные модели все чаще будут становиться инструментами, которые мы используем, чтобы управлять нашими институтами, расходовать наши ресурсы и организовывать наши жизни. Но, как я пыталась показать на протяжении всей книги, эти модели сконструированы не только из данных, но и из нашего человеческого выбора – на что обратить внимание в этих данных, а какие из них пропустить. Этот выбор касается не только логистики, выгоды и эффективности. Он покоится на морали.
Если мы от этого отойдем и будем относиться к математическим моделям как к нейтральной и неизбежной силе, вроде погоды или приливов, мы тем самым откажемся от ответственности. И результатом станет, как мы уже видели, оружие математического поражения, которое обращается с нами как с винтиками механизма, карает работников и паразитирует на неравенстве. Мы должны объединиться, чтобы контролировать это оружие и обезвредить его. Я надеюсь, что о нем будут вспоминать как о смертельно опасных шахтах прошлых столетий – как о реликтах ранних дней новой революции, когда мы еще не научились делать Большие данные справедливыми и подотчетными. Математика заслуживает гораздо большего, чем оружие математического поражения, – и демократия тоже.