ГЛАВА 2

С властью приходит ответственность
Hewlett-Packard, Target и полиция выведывают ваши секреты

Как можно безопасно использовать прогнозную машину, способную предвидеть увольнения, беременность и преступления? Не ущемляет ли это наши гражданские свободы? Насколько это в порядке вещей, что одна ведущая компания медицинского страхования прогнозирует смерть своих страхователей? Отдельно рассматривается вопрос, посвященный выявлению мошенничества: как может искусственный интеллект перевернуть суть мошенничества с ног на голову?

Что будет, если вашего босса уведомят, что вы собираетесь уволиться — даже если вы никому об этом не говорили? Если вы являетесь одним из более чем 330 000 сотрудников компании Hewlett-Packard, то знайте, что ваш работодатель на регулярной основе оценивает вас и всех ваших коллег по шкале «риск ухода». Эта оценка показывает, какова вероятность того, что вы можете покинуть компанию. Если вы работаете в HP и не знали об этой практике, повремените выходить из себя от гнева, пока не прочитаете в этой главе объяснение такому поведению вашего работодателя.

Эта история с HP всплыла на волне шумихи, поднятой в средствах массовой информации вокруг компании Target в связи с вскрывшимся фактом, что этот крупнейший оператор гипермаркетов занимается прогнозированием беременности своих покупателей. В этом торнадо смешалось все — вводящие в заблуждение обвинения, страх перед могуществом корпораций, громкие заявления известных личностей и, конечно же, прогнозная аналитика (ПА). К моему удивлению, я оказался в самой гуще событий.

Несмотря на то, что средства массовой информации любят огульную пальбу, они часто выбирают для атаки в целом правильное направление. Нападки СМИ были реакционным и дезинформирующими, но для всех было очевидно, что они не лишены законных оснований. Связанная с прогнозированием деятельность HP и Target поднимала чрезвычайно сложный и актуальный этический вопрос. А в контексте неприкосновенности частной жизни ставки повышались еще больше.

Почему? Потому что прогнозирование сует нос в ваше частное будущее. В обоих вышеописанных случаях компании узнавали ранее неизвестные чувствительные факты: вы собираетесь уволиться? Вы беременны? И дело даже не в возможности злоупотребления этими данными, их утечки или кражи. Дело в том, что таким образом помимо воли человека происходит косвенное раскрытие фактов, касающихся его частной жизни. Организации генерируют эти важные новые сведения из существующих безобидных данных, буквально создают их из воздуха. Но умеют ли они правильно управлять этой своей способностью?

Хотя мы уже признали всю силу прогнозирования и поставили его себе на службу, мы только сейчас начинаем осознавать риски, которые это влечет с точки зрения неприкосновенности частной жизни. Однако цепная реакция запущена и удивляет даже экспертов: организации вовсю используют новые возможности, потребители протестуют, СМИ подливают масло в огонь, ученые уворачиваются от нападок и подвергают пересмотру этические принципы.

Будем честны: в конце концов, прогнозная аналитика используется не только для того, чтобы выявлять будущих мам и нелояльных сотрудников. Она может применяться и в куда более неоднозначных целях. ПА помогает выявлять потенциальных преступников и активно используется правоохранительными органами для принятия решений о том, кто должен сидеть в тюрьме, а кого можно отпустить на свободу.

Далее я расскажу вам о том, как однажды невольно превратился из беззаботного аналитика в телезвезду и как организации были вынуждены сменить высокомерие на смирение. Затронем мы и тему использования прогнозной аналитики в сфере асоциальной деятельности.

Что прогнозирует Target и зачем

В 2010 году я пригласил эксперта из Target Эндрю Поула выступить с докладом на конференции Predictive Analytics World, где я был председателем программного комитета. Поул руководит целой армией профессиональных аналитиков, управляющих различными ПА-проектами для Target. В октябре того же года он сделал великолепный доклад, осветив в нем широкий спектр областей применения ПА в Target. Поул вышел на сцену и сразу же захватил внимание аудитории своей динамичной речью, в которой были и детальные примеры, и увлекательные истории, и демонстрация впечатляющих результатов в бизнесе. Аудитория была в восторге. Его выступление можно посмотреть на сайте www.pawcon.com/Target.

Ближе к концу выступления Поул рассказал о проекте по прогнозированию беременности среди покупателей. Маркетинговый потенциал таких прогнозов очевиден, принимая во внимание потребности семьи, ожидающей рождение ребенка.

Но это было чем-то принципиально новым, и я повернул голову, чтобы посмотреть на реакцию аудитории. Ничего. Абсолютно ничего. Как правило, в маркетинговых проектах ПА используется для прогнозирования покупательского поведения. Но в данном случае предмет прогнозирования не относился к вещам, непосредственно интересующим маркетологов, а сам был значимым предиктором широкого спектра покупательских потребностей. В конце концов, задача маркетолога состоит в выявлении спроса и использовании открывающихся возможностей. И эту цель прогнозирования можно считать «суррогатной матерью» (извините за сравнение) для соответствующих покупательских потребностей, за выявление которых розничный торговец и платит своим маркетологам.

Применение ПА: прогнозирование беременности

Предмет прогнозирования: кто из покупательниц в ближайшие месяцы ожидает рождения ребенка.
Цель прогнозирования: делать соответствующие маркетинговые предложения для будущих родителей.

На основе каких данных Target научилась прогнозировать беременность, учитывая, что прогнозное моделирование требует некоторого количества прецедентов, из которых оно могло бы получить данные для анализа? Как вы помните, прогнозное моделирование — это одна из форм автоматизированной обработки данных, сопровождающейся обучающими примерами, которые должны включать как положительные, так и отрицательные варианты. Другими словами, необходимо, чтобы в прошлом компания выявила ряд положительных примеров того, что она хочет спрогнозировать в будущем. Понятно, что для составления прогнозов наподобие «может купить стереосистему» у розничного продавца есть масса положительных примеров. Но как научиться определять, какие из покупательниц Target могут быть беременны?

Вас может удивить, насколько прост ответ на этот вопрос. Попробуете догадаться сами? Для этого проекта не используется никакой медицинской или фармацевтической информации. Каким же образом покупательницы информируют Target о том, что они беременны? Через сервис Baby Registry на сайте Target. (Baby Registry — это список вещей, которые потребуются при рождении ребенка.) Заполняющие список посетительницы сайта не только раскрывают факт своей беременности, но и указывают сроки. По словам Target, есть и другие маркетинговые программы, через которые будущие мамы дают о себе знать, таким образом выступая в качестве положительных примеров для обучения.

Используя сервис Baby Registry и другие источники данных о покупателях, Target сформировала массив данных и создала «довольно точную» прогнозную модель. Теперь компания может применять эту модель и к тем покупательницам, которые не сообщают о своей беременности. Это позволяет выявлять гораздо больше беременных покупательниц, поскольку очевидно, что большинство из них не регистрируется на вышеуказанном сервисе.

Модель составляет прогноз в отношении конкретной покупательницы на основании приобретаемых ею товаров, которые могут включать товары для новорожденных или же некую комбинацию других товаров, не обязательно напрямую связанных с рождением ребенка. Работа модели построена на автоматическом выявлении тенденций через исследование широкого разнообразия факторов. Не думаю, что модель Target подтвердила, что покупка мороженого и соленых огурцов является надежным индикатором беременности, но были проанализированы и учтены все до единой категории товаров. В результате модель выявляет на 30% больше покупательниц, которым Target может предложить ориентированные на беременных рекламные материалы, — значительный успех с точки зрения маркетинга.

Многозначительная пауза

Гордо расхаживая по сцене, Поул расхваливал этот неортодоксальный маркетинговый подход, применяемый Target. Его ценность для бизнеса была очевидна, и к тому же Поул был харизматичным оратором. Скорее всего, он уже выступал с этой речью на внутренних презентациях в Target, где та была хорошо принята, и вот теперь произносил ее на открытой конференции. В любом случае материал был превосходным, и аудитория слушала его очень внимательно.

На мгновение у меня возникли некоторые сомнения, но, увлеченный самой технологией, я решил, что этот проект, как и полагается, был подвергнут тщательной проверке в самой Target и все поводы для опасений были устранены. Когда прогнозный аналитик выбирается из темной пещеры данных на свет божий, ему зачастую бывает трудно представить, как отреагируют на его очередной проект обычные люди, которые, ни о чем не подозревая, ходят по улице. Поул заверил аудиторию, что Target строго соблюдает все законы, регулирующие неприкосновенность частной жизни и использование данных: «Target хочет быть уверена, что не попадет под обстрел средств массовой информации из-за того, что использует то, чего не должна использовать». На тот момент никто из присутствующих на конференции даже представить себе не мог, во что выльется этот доклад.

Мои 15 минут славы

Поскольку как эксперт в области ПА я оказался в центре разразившегося в СМИ скандала вокруг прогнозирования беременности, которым занималась Target, я из первого ряда мог наблюдать за тем, как один журналист бросает провоцирующую искру, комментаторы и эксперты разжигают из нее костер, а новостные выпуски раздувают пламя.

Кто же первым разболтал эту тайну? Несколько месяцев спустя после презентации Поула я дал интервью журналисту New York Times Чарльзу Дахиггу. Он спросил меня о том, какие интересные открытия были сделаны благодаря ПА. Я перечислил несколько из них и упомянул о прогнозировании беременности, дав ему ссылку на видеозапись выступления Поула, которое до тех пор привлекало к себе мало внимания, а также познакомил его с Поулом. Надо признать, что к тому времени я уже практически забыл, что эта тема может быть связана с вопросом о неприкосновенности частной жизни.

Через год, в феврале 2012 года, в New York Times Magazine вышла статья Дахигга «Как компании узнают ваши секреты», которая и послужила той искрой, из которой разгорелось пламя скандала вокруг истории с прогнозирование беременности. В написанной разоблачительным тоном статье противоправный характер действий Target представлялся как доказанный факт. Чтобы усилить воздействие, в статье приводилась анонимная история о том, как один отец узнал о беременности своей дочери-подростка, увидев рекламу товаров для беременных, присланную ей Target. При этом подспудно подразумевалось, что это было результатом проекта по прогнозированию беременности. New York Times Magazine даже подготовил в дополнение к статье короткое видео, в котором демонстрировались драматически замедленные кадры стоящих у кассы покупателей Target, в то время как на фоне тревожной музыки Дахигг вещал устрашающим голосом: «Они могут узнать о любых переменах в вашей жизни… они могут манипулировать вами… чтобы вы отдавали им еще больше долларов». Дахигг называет опирающийся на данные маркетинг «шпионажем» за клиентами.

Эта хорошо продуманная сенсация вызвала широкий резонанс в прессе, на радио и телевидении; многочисленные журналисты и комментаторы слепо принимали на веру то, что было всего лишь бездоказательными утверждениями, механически повторяя их и нагружая эмоциями. Случайно или нет, но именно в это время вышла книга Дахигга «Сила привычки: Почему мы живем и работаем именно так, а не иначе» (Random House, 2012 год), которая немедленно оказалась в списке бестселлеров New York Times.

Поскольку в той пресловутой статье цитировались мои слова, я тоже оказался в эпицентре торнадо. Поул и Target молчали, словно набрали в рот воды. Я же, будучи независимым консультантом, наслаждался неограниченной свободой публичных выступлений. У меня не было мудрого работодателя, чтобы удержать меня от этого.

В свете софитов

Я не могу смотреть в лицо фактам.
Я напряжен, я нервничаю
И не могу расслабиться.

Из песни группы Talking Heads

Буквально за одну ночь я превратился из технаря в телезвезду, когда ночным рейсом рванул в Нью-Йорк, чтобы предстать в новостной программе на телеканале Fox News перед миллионами телезрителей. Честно говоря, морально я не был готов к этой роли. Плавая в абстрактном океане данных, профессиональные аналитики редко появляются на поверхности, да и то, как правило, по чистой случайности. Их работа большей частью состоит в бесконечных упражнениях в математике и алгоритмике с целью выявления закономерностей, обещающих быть верными в будущем, — странная, магическая игра, бросающая вызов законами физики, которые запрещают путешествия во времени. В своих лабораториях мы изолированы от внешнего мира, ничего не знаем ни о тоске разбитых сердец, ни о нарушенных личных тайнах. Попросив меня сменить лабораторный халат на костюм и галстук, сильные мира сего тем самым признавали, что наша малопонятная эзотерическая деятельность, ранее считавшаяся уделом лишь посвященных, на самом деле по-настоящему важна.

Организаторы утренней новостной программы Fox & Friends усадили меня за стол, и я изо всех сил старался придать себе невозмутимый вид, восседая на этом, совершенно очевидно, «горячем» месте. Перед началом передачи ведущая, знаменитая Гретчен Карлсон, остановила на мне взгляд и громко поприветствовала через всю студию: «Привет, Эрик!» Я тоже поздоровался с ней так, будто каждый день видел ее в этой студии: «Привет, Гретчен!»

Затем мы вышли в прямой эфир, который смотрели около двух миллионов телезрителей. Полностью соглашаясь с позицией Times, Карлсон устроила Target разнос за раскрытие факта беременности молодой девушки. Из ее слов можно было сделать вывод, что такой побочный ущерб присущ любому прикладному применению ПА. Второй приглашенный, профессор медицинской этики, полностью поддержал Карлсон и высказал мнение, что любое применение ПА должно быть запрещено, по крайней мере до тех пор, пока не будет проведено тщательное расследование. Далее миллионам телезрителей канала Fox были показаны кадры с магазинами Target, поверх которых большими буквами был напечатан вопрос «Магазины шпионят за вами?», затем сменившийся надписью «Target держит вас на прицеле».

Очень быстро стало ясно, что я был приглашен в качестве антигероя, поскольку шоу было призвано выставить мою профессию в дьявольском обличье. На данный момент я был лицом ПА, и мне нужно было дать отпор. Если организации подчас небрежно обращаются с той властью над людьми, которой наделяет их прогнозная аналитика, то СМИ не менее небрежно обращаются со своей властью над умами телезрителей, не стесняясь обрушивать на них голословные заявления и ложную информацию. Я сделал глубокий вдох и сказал, что статья в New York Times Magazine вводит в заблуждение, поскольку намекает, что Target обладает «сверхъестественной» способностью со 100%-ной точностью предсказывать беременность покупательниц, и устанавливает недоказанную взаимосвязь между ПА-проектом и сомнительной историей с беременной девочкой-подростком. Прогнозы Target не являются медицинским диагнозом и не основаны на медицинской информации. Мне удалось втиснуть в отведенные мне пару минут выступления ключевую мысль: нельзя огульно клеймить позором всю прогнозную аналитику. Мое выступление можно посмотреть на сайте www.pawcon.com/Target-on-fox.

В другом интервью меня попросили прокомментировать высказывание Кэтрин Альбрехт, ярой защитницы неприкосновенности частной жизни, которая заявила: «Цель розничных продавцов состоит в том, чтобы узнать о своих покупателях все, что только можно. Магазины превратились в этакие зоопарки, где в роли зверей выступают покупатели». Что я ответил? В отличие от социальных наук, задача ПА — повышение операционной эффективности организаций; ее не интересуют люди как таковые. И, в конце концов, если вы наблюдаете за человеком, это не означает, что вы обращаетесь с ним как с подопытным кроликом.

СМИ активно освещали эту тему, и через несколько недель казалось, что не осталось ни одного человека ни в моем профессиональном кругу, ни за его пределами, который не был бы в курсе этой истории с прогнозированием беременности. Даже комик Стивен Кольбер не смог пройти мимо, заявив, что Target вскоре научится на основе покупательских привычек вашего супруга или супруги прогнозировать, есть ли у них связь на стороне, и будет предлагать вам купон на электроплитку, которая потребуется вам в вашей новой холостяцкой квартире (шутки шутками, но прогнозирование разводов включено в таблицу 1 в приложении D, а также упоминается в примечаниях к этой книге).

Когда пыль уляжется, нам предстоит серьезная задача — разобраться в созданной СМИ мешанине раздутых страхов и обвинений и четко сформулировать реальные риски, которые влечет за собой ПА с точки зрения неприкосновенности частной жизни.

Невозможно посадить под замок того, кто умеет телепортироваться

Наступит время, когда информация о транзакциях станет более важной, чем сами транзакции.

Уолтер Ристон, бывший генеральный директор и председатель совета директоров Citicorp

Данные важны. И в этом причина наших тревог и волнений.

Персональные данные не равноценны реальному человеку — они гораздо лучше. Они не занимают места, их обслуживание почти ничего не стоит, они могут существовать вечно, и их гораздо проще воспроизводить и перемещать. Данные ценятся дороже, чем на вес золота, — и это действительно так, ведь данные ничего не весят, у них нет массы.

Разумеется, данные о человеке не могут сравниться по ценности с самим человеком, но из-за их дешевизны они являются выгодной инвестицией. Как замечает Алексис Мадригал, главный редактор журнала The Atlantic, данные о пользователе можно купить примерно за полцента, тогда как стоимость среднего пользователя для экосистемы интернет-рекламы оценивается в $1200 в год.

Ценность данных — содержащаяся в них информация, возможности их использования — и есть то, что делает их «чувствительными», т.е. требующими особого обращения. Чем ценнее данные, тем более они чувствительны. Поэтому напряженность, которую мы чувствуем, неизбежна. Если какие-то данные никого не интересуют, никто не будет их защищать, никто не будет пытаться получить к ним доступ — да и начать с того, что никто не будет стараться их сохранить. Как выразился Джон Элдер: «Когда что-то воспринимается как опасное, это свидетельствует о его силе. В слабом не видят угрозы».

Проблема защиты данных существует с момента изобретения письменности. Кто-то нацарапал что-то на клочке папируса, и с тех пор начался нескончаемый бой за введение и соблюдение правил доступа к данным.

Но сегодня ситуация кардинально изменилась: цифровые данные способны с мгновенной скоростью перемещаться на любые расстояния между людьми, организациями и странами. И делать это почти бесплатно. Сложите вместе все эти факторы, и вы получите чрезвычайно коварное и проворное существо, рой мух, который невероятно трудно контролировать. Это все равно что пытаться посадить в тюрьму Ночного Змея — персонажа фильма «Люди Икс», мутанта, обладающего способностью телепортации. Его перемещения не ограничены привычными нам тремя измерениями, поэтому его невозможно посадить под замок.

Из-за этой уникальной способности данных к телепортации мы придумали специальное слово для обозначения способа их транспортировки. Мы называем это телекоммуникацией.

Данные склонны распространяться как лесной пожар. Как сказал адвокат Дэвид Собел, специализирующийся на защите неприкосновенности частной жизни: «Когда информация существует, практически невозможно ограничить ее использование. Когда вокруг вас находятся все эти легкодоступные горы данных, рано или поздно кто-нибудь обязательно задаст вопрос: “Что еще можно с ними сделать?”»

Обращение этой новой, ценной валюты трудно контролировать. Чтобы провернуть сомнительную операцию с данными о потребителях, достаточно нажать одну кнопку — никакой физической транспортировки, никаких реальных товаров, никаких материальных улик.

Закон и порядок: политика, политики и контроль

Право на неприкосновенность частной жизни является наиболее универсальным из всех прав и тем, которым наиболее всего дорожат свободные люди.

Судья Верховного суда Луис Брандейс, 1928 год

Тем не менее мы должны сделать все возможное, чтобы приручить это дикое существо. Полная свобода — не вариант. Люди будут продолжать бороться за то, чтобы навести порядок с распространением медицинских фактов, финансовых тайн и компрометирующих фотографий. Страх настолько силен, что каждый четвертый пользователь Facebook указывает о себе ложную информацию из-за опасений, связанных с сохранением конфиденциальности.

Каждая организация должна ответить на следующие вопросы в отношении данных — кто, что, где, когда, как долго и зачем:

Хранение — что хранится и как долго.

Доступ — какие сотрудники, категории персонала или члены группы имеют доступ к конкретным элементам данных.

Распространение — какие данные могут быть предоставлены конкретным сторонам внутри организации и за ее пределами.

Объединение — какие элементы данных могут быть объединены, агрегированы или скомбинированы.

Реакция — какие действия можно предпринять на основе каждого элемента данных, определив ответную реакцию организации, аудиторию, которой дается ответ, и прочее поведение.

Чтобы еще больше усложнить дело, добавьте в каждый из этих пунктов уточнение «при каких обстоятельствах и для каких целей».

Здесь есть над чем поломать голову. Какие правила управления данными должны быть установлены на законодательном уровне, а какие — на уровне отраслевого саморегулирования или норм профессиональной этики? Какие связанные с данными действия организации могут осуществлять без информирования потребителя, а в каких случаях ему должно предоставляться право выбора? Как обеспечивать соблюдение этих правил? Какие стандарты безопасности — шифрование, защита паролей, брандмауэры и т.п. — позволят вам заслужить репутацию неприступной крепости в электронном королевстве?

Да уж, работы у нас по горло.

Война вокруг данных

Весь бесплатный Интернет — бесплатные платформы, сервисы и контент — полностью финансируется за счет целевой рекламы, эффективность (и, следовательно, доходность) которой зависит от сбора и анализа пользовательских данных.

Александр Фурнас, журналист The Atlantic

Ставки растут, страсти накаляются.

В одном углу ринга — ярые защитники неприкосновенности частной жизни. Не доверяя организациям, они стремятся в зародыше задушить любые возможные проблемы с данными: ограничить, удалить всё и в первую очередь запретить сбор.

В другом углу — охотники за данными, одержимые ими скопидомы и беспринципные манипуляторы. Эта колоритная группа включает бизнесменов, менеджеров, членов советов директоров и, собственно говоря, специалистов по ПА.

Представители второй группы видят всю ценность и возможности данных, и это их вдохновляет — причем не только и не столько из своекорыстных или экономических соображений. Мы хотим строить дивный новый мир: повышать производительность и эффективность, сокращать ненужные почтовые рассылки и спасать деревья, улучшать здравоохранение, рекомендовать фильмы и музыку, которые доставляют вам удовольствие. И мы любим браться за сложные научные проблемы, которые позволят нам это сделать.

Несмотря на всю нашу любовь к данным, мы тоже иногда становимся их жертвами. Однажды я зашел в аптеку Walgreens. После того как заплатил за покупки, кассовый аппарат выдал мне красочный скидочный купон. На нем была крупно изображена упаковка предлагаемого мне препарата, которую могли прекрасно видеть стоящие рядом со мной покупатели. Мне хотелось умереть от стыда. Это было средство от метеоризма Beano. Дело в том, что у меня развилась легкая форма лактазной недостаточности, и я, тогда еще не зная об этом, искал способ избавиться от неприятных симптомов. Слепо действуя на основе этих данных, система рекомендаций Walgreens, видимо, не учитывала возможность того, что рядом с обслуживаемым ею покупателем могут стоять другие люди.

Другие медицинские данные носят гораздо более серьезный и чувствительный характер, нежели информация о пищеварительных проблемах. Однажды, преподавая на летних курсах для одаренных подростков, я получил информацию, которую, как считал, мне не следовало сообщать. Администратор отвел меня в сторону и предупредил, что один из учеников страдает биполярным расстройством. Я не разбираюсь в психиатрии и не хотел предвзято относиться к этому ученику, но в банке памяти мозга нет кнопки «Стереть информацию». В конце концов, этот подросток был одним из моих лучших учеников, и его психическое расстройство не проявлялось сколь-либо заметным для окружающих образом.

Сейчас мы наблюдаем растущее использование данных о местоположении, источником которых являются сотовые телефоны и автомобильные навигаторы. В результате у некоторых людей возникают серьезные проблемы с начальством, супругами и правоохранительными органами. Вот что написал по этому поводу Том Митчелл, профессор Университета Карнеги–Меллон и мировой авторитет в области исследований и разработки методов машинного обучения, в статье в журнале Science: «Потенциальные выгоды от сбора и использования таких данных [данных о местоположении, получаемых с помощью системы GPS] многочисленны: это и сокращение дорожных пробок и загрязнения воздуха, и ограничение распространения инфекционных заболеваний, и более рациональное использование государственных ресурсов, таких как парки, общественный транспорт и службы скорой помощи. Однако сбор этих данных несет с собой риски для неприкосновенности частной жизни таких масштабов, с которыми люди никогда еще прежде не сталкивались».

Эти два лагеря будут сражаться за данные еще много десятилетий. Сторонники сбора и использования информации должны так настроить свои миноискатели, чтобы они стали максимально чувствительны к нужным данным. Защитники же неприкосновенности частной жизни должны понять, что технологии на основе информации — это инструмент, который может служить как добру, так и злу, как и обычный нож. Полностью объявить прогнозную аналитику вне закона — не вариант. Не существует единственного, объективно верного решения. Это субъективная, динамично развивающаяся область, где сегодня формируются новые аспекты нашей культуры. Диалог здесь имеет критическое значение, но подход «ознакомьтесь с нашей политикой конфиденциальности, дочитать которую до конца у вас все равно не хватит терпения», нельзя назвать диалогом. Организации и потребители пока говорят на разных языках. Достижение баланса интересов совместными усилиями — вот новая серьезная задача, стоящая перед обществом. Нам предстоит пройти длинный путь.

Добывать знания из данных — не значит копаться в вашей личной жизни

Позвольте мне реабилитировать аналитиков данных и их любимое дело. Сама по себе прогнозная аналитика не нарушает неприкосновенности частной жизни — лежащий в ее основе процесс противоположен вторжению в частную жизнь. Хотя прогнозную аналитику иногда называют data mining (добычей знаний из данных), она построена не на «углублении в данные» с целью покопаться в вашей личной жизни. Как раз наоборот, ПА построена на «обобщении», т.е. выявлении общих закономерностей, присущих огромным массивам клиентских данных. Она часто становится козлом отпущения просто потому, что люди не понимают ее сути.

Тем не менее нельзя не признать, что сегодня ПА выступает одним из ключевых факторов эскалации войны вокруг данных, играя роль мощного катализатора. Почему? Да потому что она порождает настоятельную потребность во все больших объемах данных. Чем больше у вас элементов информации в расчете на клиента, тем больше шансов выявить в процессе анализа данных то, что наилучшим образом будет предсказывать будущее. И чем больше у вас строк клиентских данных, тем более точная прогнозная модель будет создана в результате машинного обучения.

Не стоит обвинять солнце, если томимый жаждой вор украл у вас лимонад. Если будут введены продуманные и справедливые правила обращения с данными и деятельность в сфере ПА будет вестись в строгом соответствии с ними, ни о каких злоупотреблениях данными или вторжении в частную жизнь не будет идти и речи. ПА станет абсолютно безопасным и обыденным инструментом, и мы будем жить в счастливом футуристическом мире глобального прогнозирования. Верно?

Перенесемся на мгновение в мрачное будущее. Вы сидите в шикарном центре управления, в одной руке держите тюбик с пюре со вкусом курицы, а другой активно маневрируете джойстиком, дистанционно управляя землеройным механизмом, добывающим на метеорите драгоценные металлы. Неожиданно к вам подходит босс и одаривает пристальным взглядом: «Нам нужно поговорить о вашей лояльности к нашей компании».

В вашей организации решили, что вы собираетесь увольняться. Вы хотели бы работать там, где будут знать обо всех ваших планах и намерениях — причем, возможно, еще до того, как осознаете их сами?

Hewlett-Packard изучает саму себя

Я знаю, как больно говорить «Прощай», но мне пришло время улетать.

Из песни группы REO Speedwagon

В 2011 году двое талантливых исследователей из Hewlett-Packard начали использовать математические методы для оценки лояльности каждого из более чем 330 000 сотрудников компании. Гитали Халдер и Аниндия Дей разработали прогнозные модели для выявления сотрудников с наиболее высоким риском ухода, т.е. тех, кто с наибольшей вероятностью может покинуть компанию.

Удержание сотрудников — ключевое условие для выживания любой организации. В конце концов, организация — это прежде всего совокупность ее членов. Один из пяти идеологических принципов, сформулированных основателем HP, гласит: «Мы достигаем наших общих целей путем командной работы». Сотрудники развивают взаимодополняющие навыки и берут на себя взаимодополняющие роли. Они учатся совместной работе. Поэтому уход хорошего сотрудника плохо отражается на организации.

Управление текучестью кадров — важнейшая задача для всех компаний. Например, одна транснациональная корпорация сталкивается с высокой «текучкой» сотрудников своего колл-центра в Барселоне. Люди приезжают только для того, чтобы провести лето в этом прекрасном городе, устраиваются на работу, а потом внезапно увольняются. Компания хочет заранее выявлять таких претендентов на рабочие места.

Компании, которые хотят повысить эффективность управления персоналом, нацеливают ПА-программы не только вовне, на клиентов, но и на собственных сотрудников для прогнозирования их поведения. Аналогично тому, как компании выявляют готовых уйти клиентов и прилагают усилия для их удержания, HP прогнозирует, кто из ее сотрудников может покинуть компанию, и принимает превентивные меры. Можно сказать, что и в том и в другом случае компании ищут утечки в корпусе судна, чтобы, залатав их, удержать его на плаву.

Применение ПА: удержание сотрудников

Предмет прогнозирования: какие сотрудники могут уйти.
Цель прогнозирования: выбор того, какие действия предпринять в отношении своих подчиненных на основе прогнозов, остается за руководителями. Это пример применения ПА для поддержки принятия решений, а не для автоматического принятия решений.

Проницательность или вторжение?

Компания Hewlett-Packard — легендарная история успеха. Открытая двумя друзьями в пресловутом гараже, сегодня она является мировым лидером в производстве персональных компьютеров. В 2011 году компания стала 27-м по величине крупнейшим работодателем; ее годовая выручка составила $127 млрд, что ставит ее на одно из первых мест среди технологических компаний мира по этому показателю.

HP по праву можно назвать империей, но ни в коем случае не цитаделью. В некоторых рабочих группах текучесть кадров достигает 20%. Разумеется, на корабле такого размера утечки неизбежны, особенно принимая во внимание гипермобильность сегодняшних ИТ-специалистов.

HP — лидер прогнозной аналитики. В ее аналитическом отделе в одном только Бангалоре работает 1700 человек. Компания разрабатывает и применяет передовые аналитические методы в области продаж, маркетинга, финансов, управления цепочками поставок и персоналом. Ее ПА-проекты включают прогнозирование ухода клиентов, оценку потенциальных клиентов и выявление мошенничества среди поставщиков.

Гитали Халдер руководит в Бангалоре аналитической группой, специализирующейся на прикладном применении ПА в сфере управления персоналом. Обладатель диплома магистра экономики Экономической школы в Дели, имеющий несколько лет практического опыта, Халдер — энергичный сторонник ПА. Уверенная в себе, общительная и красноречивая, она производит впечатление и заражает своим энтузиазмом. Вместе с консультантом Аниндией Дей, также из бангалорского подразделения HP, они представляют слаженный, динамичный тандем, о чем свидетельствует их замечательная презентация проекта на конференции Predictive Analytics World в ноябре 2011 года в Лондоне.

Халдер и Дей собрали массивный набор данных в качестве учебного материала для создания прогнозных моделей. Это были данные о сотрудниках за последние два года, касающиеся таких вещей, как заработная плата, повышение по службе, оценка работы и ротация должностей. Также они указали, какие сотрудники остались в компании, а какие покинули ее. Таким образом, HP получила возможность извлечь из своего прошлого опыта ценнейший урок — а именно научиться прогнозировать, какие комбинации факторов определяют, сотрудники какого типа (или типов) могут оставить работу.

Если этот проект действительно поможет HP уменьшить текучесть кадров, Халдер и Дей могут стать двумя самыми ценными сотрудниками компании — или двумя самыми нелюбимыми, по крайней мере среди части коллег. Неудивительно, что некоторые, даже преданные, сотрудники HP могут чувствовать себя некомфортно, зная о существовании такой системы оценки. Что если прогнозная модель ошибется, несправедливо оценив вас как нелояльного сотрудника и тем самым испортив вашу репутацию?

Мы видим появление совершенно новой категории информации о людях — прогнозных данных. Помимо персональных, финансовых и других личных данных о человеке мы получаем доступ к данным о его будущем — другими словами, к его сокровенным намерениям, мыслям и чувствам. Что это — проницательность или вторжение в личное пространство?

Зависит от того, что HP делает с этими данными.

Первое испытание

На другом конце света Алекс Бо перенимает эстафету у Халдер и Дей, помогая преобразовать плоды их труда в конкретные действия. Бо работает менеджером в расположенной в Хьюстоне службе Global Business Services (GBS). Имея тысячи сотрудников, GBS предоставляет широкий спектр услуг всем подразделениям HP, которые предпочитают передать некоторые из своих функций на аутсорсинг (в HP это принято называть аутсорсингом, хотя GBS является внутрикорпоративной службой).

Первым делом Бо, Халдер и Дей решили нацелиться на одну из групп внутри GPS. Она определяет вознаграждение менеджеров по продажам HP по всему миру и насчитывает около 300 сотрудников, рассеянных по разным странам. На тот момент уровень текучести кадров в ней был довольно высоким — около 20%. Замечательный полигон для первого испытания прогнозной системы в реальных условиях.

Глобальные организации — это всегда сложно. В данном случае Бо, Халдер и Дей предстояло иметь дело не с обычной командой менеджеров по продажам и даже не с командой отдела персонала, которая занимается их поддержкой. Они должны были сотрудничать с глобальной командой, в основном сосредоточенной в Мексике, Китае и Польше, которая помогала различным командам отдела персонала, поддерживающим менеджеров по продажам. Иными словами, проект получался многоуровневым: они действовали как команда аналитиков, которая должна была помочь с управлением персоналом глобальной команде GBS, которая помогала командам по поддержке менеджеров по продажам.

Просто перечитайте предыдущий абзац еще раз пять, и вы поймете. Однажды мне довелось руководить для HP одним проектом по прогнозированию потенциального спроса среди ее корпоративных клиентов — т.е. сколько компьютеров должна будет купить каждая компания и какая часть этой потребности в настоящее время покрывается конкурентами НР? За несколько месяцев работы над этим проектом мне пришлось контактировать с таким количеством людей из такого количества рабочих групп и такого количества стран, что мне потребовалось составить целый справочник с расшифровкой названий рабочих групп, указанием часовых поясов и т.д., просто чтобы не запутаться.

Учитывая такую сложность организационной структуры, удержание каждого сотрудника вышеуказанной группы имеет большую ценность. Обучение новых сотрудников обходится довольно дорого. Дело в том, что члены группы GBS по вопросам вознаграждения менеджеров по продажам должны обладать весьма специфическим набором навыков. Они работают в сложной и разнообразной среде и управляют системами вознаграждения, от которых зависит эффективность стимулирования менеджеров по продажам, от которых, в свою очередь, зависит выручка — и выживание — компании. В HP нет единой тарифной сетки — компания больше похожа на лоскутное одеяло, поскольку значительная часть организационного роста происходит за счет приобретения небольших компаний, вместе с которыми HP поглощает новые команды продаж с собственными правилами вознаграждения. По оценкам, группа GBS выполняет примерно 50% всей работы по определению вознаграждения менеджеров по продажам во всей глобальной организации.

Факторы риска

Анализ данных показал, что риск ухода зависит от ряда вполне очевидных факторов. Например, сотрудники с более высокой зарплатой, чаще получающие прибавки к ней и обладающие более высокими показателями личной эффективности, увольняются гораздо реже. Это ключевые факторы, снижающие риск ухода. Более частая ротация также способствует удержанию сотрудников. Алекс Бо предполагает, что периодическая смена деятельности внутри группы помогает сохранить интерес к работе, если та носит рутинный, скрупулезный характер.

Одним из сюрпризов стало то, что продвижение по службе не всегда идет на благо. В целом по HP повышение способствует снижению риска ухода, но в данной группе GBS, где оно сопровождалось относительно небольшим ростом зарплаты, эффект был обратным: сотрудники, которые чаще повышались по службе, демонстрировали более высокую вероятность ухода, если только карьерный рост не приводил к значительному росту заработной платы.

Любой анализ настолько хорош, насколько хороши исходные данные (как говорится, мусор на входе дает мусор на выходе). В похожем проекте для другой компании — поставщика кредитной информации для корпоративных клиентов, входящей в список крупнейших компаний по выручке Fortune 1000, — мне нужно было разработать прогнозную модель для оценки того, как долго могут задержаться на рабочем месте потенциальные кандидаты на должность сотрудников колл-центра. Оказалось, что кандидаты с опытом работы в сфере продаж имеют на 69% более высокую вероятность проработать на этом месте более девяти месяцев. Другие факторы включали количество мест работы за последние 10 лет, предоставленный кандидатом источник рекомендаций и уровень образования. Однако в этом проекте мы едва не угодили в ловушку. Предварительные результаты убедительно показали, что кандидаты с неоконченным средним образованием имеют в 2,6 раза более высокую вероятность дольше задержаться на этой работе. Через несколько дней мы собирались представить эти результаты клиенту и рекомендовать, чтобы компания нанимала больше людей, бросивших среднюю школу, — когда вдруг обнаружили огромное количество ошибок в переданных нам данных о сотрудниках. Как правило, подверженные ошибкам данные позволяют всего лишь сделать меньше выводов, но никак не вывести строгие ложные закономерности, однако это был исключительный случай. Мы были на волосок от фиаско!

Как и в любой другой области ПА, прогнозная модель Халдер и Дей сводит вместе все разнообразные факторы и выдает единую прогнозную скоринговую оценку — в данном случае оценку риска ухода — для каждого человека. Хотя эти выводы во многом могут показаться самоочевидными, модель работает более изощренно: она оценивает, как эти элементы соотносятся друг с другом, как сочетаются или взаимодействуют между собой, а также какие интуитивные предположения, не оправдавшиеся на практике, следует отбросить. Автоматизируя процесс извлечения знаний из данных, прогнозная модель в буквальном смысле слова учится на прошлом опыте.

Будучи применена по отношению ко всем сотрудникам HP по всему миру, эта прогнозная модель выявила возможности для потенциальной экономии порядка $300 млн на расходах, связанных с заменой персонала и потерей производительности. Так, из 40% сотрудников HP, отнесенных моделью к группе наивысшего риска, 75% уволились в короткие сроки (точность прогнозов 1,9).

Я спросил у Халдер и Дей, которые также являются сотрудниками HP, как обстоят дела у них самих? Спрогнозировали ли они вероятность своего ухода? Они мне ответили, что очень любят свою работу в HP, но признали, что входят в группу высокого риска. Это кажется правдоподобным, поскольку аналитики данных сегодня пользуются большим спросом.

Доставка динамита

Когда химики синтезируют новый нестабильный элемент, они должны обращаться с ним предельно осторожно.

Модель прогнозирования риска ухода внедряется в HP с величайшей осторожностью. Бо, Халдер и Дей разработали систему доставки отчетов, где только несколько высокопоставленных менеджеров (которые были обучены интерпретации этих прогнозных оценок и понимают все ограничения, последствия и аспекты конфиденциальности) имеют доступ к оценкам конкретных сотрудников, являющихся их непосредственными подчиненными. Но даже если такой отчет попадет в руки посторонних лиц, они не найдут там никаких имен, никаких сведений, позволяющих идентифицировать перечисленных в нем людей, — там указаны только зашифрованные идентификаторы, расшифровать которые может только авторизованный менеджер, имеющий специальный ключ. Все системы безопасности имеют уязвимые места, но эта кажется почти пуленепробиваемой.

Отчет по группе GBS, состоящей из 300 сотрудников, видят только три менеджера. В этом отчете в легкой для восприятия форме представлены оценки вероятности ухода, выставленные прогнозной моделью, в сопровождении текстовой информации, объясняющей, почему оценка является высокой или низкой. Пользователей этого аналитического продукта предварительно обучают тому, как интерпретировать эти оценки с точки зрения сопровождающих их объяснений (т.е. какие именно факторы способствовали такой оценке сотрудника), чтобы эти цифры не казались непреложной истиной или обязательным руководством к действию.

Выданную любой прогнозной моделью оценку следует воспринимать со здоровой долей скептицизма. Эти оценки говорят о тенденциях и вероятностях в рамках большой группы; одна единичная вероятность по своей природе чрезмерно упрощает реальный феномен, который описывает. Если я пропустил платеж по кредитной карте, вероятность того, что я пропущу еще один в этом году, может учетвериться, если брать во внимание один этот фактор. Но если вы примете во внимание, что в этом месяце в моем доме обвалилась крыша, ваше мнение изменится. В целом реальная история любого человека — это гораздо больше того, чем мы когда-либо можем о нем узнать. Здесь можно провести параллель с другой практикой, также построенной на доскональном исследовании, — диагностированием человека с психическим расстройством и назначение подходящего лечения.

Со временем отчеты с оценками риска ухода сотрудников из компании направляют управленческие решения в продуктивное русло. Они служат сигналами раннего предупреждения, помогающими руководству заранее планировать свои действия в связи с потерей работников, которой нельзя избежать, и принимать меры для удержания ключевых сотрудников, когда это возможно. Система информирует менеджеров о факторах, влияющих на уход сотрудников, и дает им возможность разработать более грамотные стратегии для удержания персонала, чтобы сократить связанные с его заменой расходы и обеспечить непрерывное функционирование бизнеса.

Результаты

Результаты не заставили себя ждать. Текучесть кадров в пилотной группе GBS по вопросам вознаграждения менеджеров по продажам, превышавшая в некоторых регионах 20%, снизилась до 15% и продолжает идти вниз. Этот успех в значительной степени приписывают отчетам с оценками риска ухода и хорошо продуманной системе их представления руководителям, принимающим решения о дальнейших действиях.

Проект получил широкую известность внутри HP. Сам вице-президент HP по вопросам вознаграждения менеджеров по продажам восторженно приветствовал его. Отчеты с оценками риска ухода сотрудников продолжают оказывать положительное влияние, а лежащие в их основе прогнозные модели обновляются ежеквартально на основе последних данных, чтобы поддерживать их актуальность.

Возможно, даже сами пионеры этого подхода не осознают, насколько это значительный шаг вперед с культурной точки зрения. Компьютер не просто подчиняется обычным механическим приказам, чтобы сохранять факты и цифры. Он производит новую информацию, причем настолько важную, что с ней нужно обращаться с особой осторожностью. Отныне мы живем в новом мире, где системы не только создают новую значимую информацию, но и должны ею управлять с большой осмотрительностью.

При грамотном использовании ПА-система, прогнозирующая вероятность ухода сотрудников, может принести организации весомую пользу, не вызывая при этом сильного раздражения среди персонала. Учитывая отношения, которые у вас сложились с боссом, возможно, вы даже будете рады, если он получит отчет с оценкой риска вашего ухода — разумеется, при условии, что она будет интерпретирована правильным образом. И, возможно, это разумная и приемлемая практика для работодателя — прибегать к анализу данных о своих сотрудниках для выявления важных закономерностей и тенденций, не обязательно ставя об этом в известность их самих. В этой области пока нет общепризнанных этических норм — приговор по новому делу еще не вынесен.

Но давайте перейдем из трудовой сферы в криминальную. Что, если в вашу дверь постучатся сотрудники правоохранительных органов с отчетом о риске совершения преступления в руках?

Прогнозирование преступлений с целью их предотвращения

Что, если бы мы могли изменить нашу парадигму с «наблюдать, делать предположения, реагировать» на «прогнозировать, планировать, действовать»?

Сержант Кристофер Фулчер, старший офицер по вопросам технологий в департаменте полиции Вайнленда, штат Нью-Джерси

Полиция никогда не останется без работы. Уровень преступности может то расти, то падать, но правоохранительные органы в силу своей природы всегда будут сталкиваться с проблемой оптимизации использования ограниченных ресурсов, таких как патрульные полицейские или грамотные аудиторы.

Сегодня полиция поставила прогнозную аналитику себе на службу. Задача — предсказать места совершения преступлений и обеспечить усиленное патрулирование этих районов. Одна система, протестированная на двухлетних исторических данных в Санта-Круз, штат Калифорния, правильно предсказала место совершения 25% краж со взломом. Сегодня эта система используется на практике, ежедневно выделяя в этом небольшом городке 10 горячих точек, куда следует направить полицейские машины. В 2011 году журнал Time включил ее в список 50 лучших изобретений года.

Применение ПА: прогнозирование преступлений

Предмет прогнозирования: место совершения будущего преступления.
Цель прогнозирование: усиленное патрулирование этого района с целью предотвращения преступлений.

Другая система прогнозирования, которой в 2011 году на конференции по ПА был посвящен доклад старшего офицера по вопросам информации Стивена Холлифилда из полицейского департамента Ричмонда, штат Вирджиния, отмечает на карте места с высокой вероятностью совершения преступлений и составляет список полицейских участков, районов и видов преступлений с указанием уровней риска. После внедрения этой системы уровень преступности в Ричмонде снизился. Аналогичные системы сейчас внедряют в Чикаго, Лос-Анджелесе, Вайнленде (Нью-Джерси), а также в Мемфисе, где, по оценкам, они способствовали уменьшению количества преступлений на 31%. В 2009 году американский Национальный институт юстиции выделил гранты семи департаментам полиции на разработку систем прогнозирования преступлений.

Подход может быть разным. Прогнозные модели, подобные той, что используется в Санта-Крузе, опираются на выявленные ими тенденции и иные закономерности, позволяющие предсказать, какие преступления с наибольшей вероятностью могут произойти в подконтрольных районах. В Ричмонде прогнозная модель предсказывает места будущих преступлений на основе таких факторов, как сегодняшние события в городе, день выдачи зарплаты, праздник, день недели и погода.

Что здесь может не нравиться? Правоохранительные органы получают в руки новый мощный инструмент, позволяющий предотвращать преступления. Такое применение ПА практически не вызывает споров. Даже Американский союз защиты гражданских свобод дал добро. Никакого вреда, никаких нарушений гражданских прав.

Существует один вид преступлений, в связи с которым постоянно слышны громкие жалобы, когда прогнозная модель терпит неудачу в его выявлении, — это мошенничество. Чтобы больше узнать о проблеме выявления мошенничества, прочитайте специальную вставку, посвященную этой теме. Или можете ее пропустить и перейти к следующему разделу, где я расскажу вам, как компьютерные прогнозные модели используются для определения того, сколько времени осужденному следует провести в тюрьме.

Специальная вставка

Выявление мошенничества

Преступники могут быть такими милыми людьми… Я подружился с одним таким в 1995 году. В то время я работал над диссертацией в Нью-Йорке, а он был новым бойфрендом сестры моей подруги. Очень обаятельный, якобы бывший профессиональный спортсмен, этот парень всеми правдами и неправдами пробирался в наши сердца и наши дома. Я никогда не забуду по-настоящему превосходный ужин, которым он угостил нас в знаменитом итальянском ресторане Carmine’s. Поэтому у меня не возникло никаких сомнений, когда я позволил ему пожить в своей квартире, уехав на летние каникулы.

Год или два спустя я обнаружил, что он украл мои персональные данные, мой номер социального страхования и испортил мой безупречный кредитный рейтинг. Он начал небольшой бизнес по розливу воды под Лос-Анджелесом, выдавая себя за меня. Несмотря на то что он был на десять лет старше меня, находился на другом побережье и даже не пытался скопировать мою подпись, он открыл на мое имя множество кредитных карт и взял в лизинг оборудование для розлива воды. Когда у него накопилась гора долгов, он бросил бизнес и прекратил платежи.

Кредиторы нашли меня, и мне потребовалось несколько лет бумажной волокиты, чтобы очистить свое имя и, главным образом, свою кредитную историю — хотя я по сей день не могу получить кредитную карту American Express (если вдруг вы работаете в этой компании, не могли бы вы замолвить за меня словечко?). Чтобы очистить мое имя от подозрений, большинство кредиторов требовали полицейского отчета. Но я не мог найти ни одного офицера, ни в одном отделе или участке, который взял бы на себя ответственность за его составление. Они просто выставляли меня за дверь под предлогом, что это не их юрисдикция. Где было совершено преступление — по месту нахождения кредитора, месту нахождения преступника или там, где был украден мой номер социального страхования? Наконец в один прекрасный день я был вынужден изобразить на лице широкую улыбку и сказать: «Офицер, для меня это вопрос жизни и смерти! Вы окажете мне огромную услугу!» Этот мягкосердечный полицейский уступил, но, как это ни смешно, составляя отчет, так и не потребовал у меня удостоверения личности.

Где была хорошая прогнозная модель, когда она была так нужна? Почему, ну почему все эти кредитные заявки не были отмечены как подозрительные или отправлены на проверку, учитывая расхождение между предоставленной информацией и той, что содержалась в моем кредитном досье? В конце концов, когда все доказательства были собраны и представлены, большинство кредитных инспекторов признало, что это был очевидный случай мошенничества.

Если в одних областях применение прогнозной аналитики вызывает озабоченность, то в других ничуть не меньшую озабоченность вызывает ее полное отсутствие.

Волк в овечьей шкуре

Мошенничество определяется как «сознательный обман, предпринятый с целью извлечения личной выгоды». Другими словами, это действия волка, одетого в овечью шкуру. Мошенничество — это когда один человек выдает себя за другого или делает то, что не имеет права делать. Студент копирует чужую домашнюю работу, боксер намеренно проигрывает бой, игрок в азартные онлайн-игры жульничает, использует инсайдерскую информацию, фальшивые аккаунты в Twitter распространяют ложную информацию об участвующем в выборах кандидате, или человек инсценирует собственную смерть для получения страховки. Все эти преступления могут быть выявлены при помощи прогнозной аналитики.

Сегодня для мошенников настали хорошие времена, поскольку у них появилось новое, огромное, все увеличивающееся пастбище — Интернет, транзакционная инфраструктура глобальной коммерции. Подключая нас к миру, Всемирная паутина также подключает нас к миру людей с преступными намерениями. Чем больше упрощается проведение онлайн-транзакций, тем проще становится их фальсифицировать. Когда покупатель, продавец, товар и деньги физически находятся в четырех разных местах, существует масса уязвимых мест, которые могут быть использованы для мошенничества.

По мере того как онлайн-транзакции становятся все более многочисленными и автоматизированными, расширяются и возможности для преступлений. Мошеннические действия с кредитными картами, налоговыми декларациями, страховыми требованиями, претензиями по гарантии, банковскими чеками и даже кликами по платной интернет-рекламе наносят огромные убытки. По данным Национального бюро по преступлениям в сфере страхования, страховые мошенники ежегодно незаконно присваивают более $30 млрд, что делает этот вид мошенничества второй самой дорогостоящей категорией преступлений «белых воротничков» в Соединенных Штатах — после уклонения от уплаты налогов. Это выливается в дополнительные $200–300 страховых премий в расчете на домохозяйство, т.е. мы оплачиваем эти преступления из собственных карманов.

«По оценкам, американские банки ежегодно сталкиваются с попытками мошенничества с чеками на общую сумму свыше $10 млрд», — говорит бывший вице-президент Citizens Bank Джей Чжоу, ныне консультант по интеллектуальному анализу данных. Убытки от мошенничества по кредитным картам приближаются к $5 млрд в год в масштабах страны, а мошенничество по программе государственной бесплатной медицинской помощи малоимущим Medicaid обходится в такую же сумму в одном только штате Нью-Йорк. Согласно отчету, опубликованному Федеральной комиссией по торговле, в 2011 году было зарегистрировано 1,8 млн жалоб в связи с мошенничеством, кражей персональных данных и другими случаями умышленного обмана в бизнесе, что на 40% больше, чем в 2010 году.

Оценки совокупных убытков от мошенничества в США варьируются от $100 млрд до $1 трлн в год.

Прогнозная аналитика приходит на помощь. Прогнозная оценка и классификация транзакций существенно повышают эффективность выявления мошенничества. Команды инспекторов способны проверять лишь ограниченное количество подозрительных транзакций в день. Например, страховая компания Progressive Insurance использует для выполнения этой задачи около 200 «специалистов по специальным расследованиям». ПА-системы обеспечивают такие команды более точно отобранным пулом подозрительных транзакций, содержащим меньше ложных сигналов тревоги, что позволяет им более эффективно использовать свое время, выявляя больше попыток мошенничества и предотвращая больше убытков.

Применение ПА: выявление мошенничества

Предмет прогнозирования: какие транзакции или заявки на выдачу кредитов, предоставление льгот, пособий, возмещений и т.п. являются мошенническими.
Цель прогнозирования: повысить эффективность работы инспекторов за счет более точного отбора подозрительных транзакций и заявок.

Большинство крупных и многие средней величины финансовые организации прибегают к помощи математики для борьбы с мошеннической деятельностью. Например, Citizens Bank разработал специальную прогнозную модель, оценивающую каждый чек с точки зрения вероятности мошенничества. Благодаря ее применению банку удалось сократить убытки от поддельных чеков на 20%. Одна компания по автострахованию сообщила, что после внедрения ПА-системы стала выявлять в 6,5 раза больше попыток мошенничества со страховыми требованиями. Платежная интернет-система PayPal в первое время после запуска столкнулась с невероятно высоким количеством мошеннических операций — порядка 20% от общего числа, что ставило под угрозу само ее существование. Внедрение ПА-систем позволило снизить эту цифру до менее 1%. Люди, стоящие за каждой из этих историй, делятся своими достижениями на международной конференции Predictive Analytics World. С похожими историями здесь выступают представители службы доставки цветов 1–800-FLOWERS, Почтовой службы США, Налогового управления и ведущих технологических компаний, которые, в частности, занимаются выявлением фиктивных гарантийных рекламаций от ремонтных мастерских, которые на самом деле не осуществляли никакого ремонта или обслуживания. Даже сама конференция время от времени подвергается атакам мошенников, которые оплачивают участие с поддельных кредитных карт, а затем требуют возвращения взносов.

Прогнозная аналитика на службе правительства

Правительство также активно борется с мошенничеством. Но, в отличие от его борьбы с преступлениями, такими как кражи и физическое насилие, эти усилия направлены не на защиту людей или бизнеса — американское правительство стремится защитить свои деньги. На самом деле именно выявление мошенничества является главной целью применения прогнозной аналитики в государственной сфере как способа уменьшить потери в условиях сокращающихся бюджетов.

Компания Джона Элдера Elder Research помогла Налоговому управлению США разработать и внедрить прогнозно-аналитическую систему, которая позволила увеличить количество выявляемых мошеннических деклараций в 25 раз для некоторых целевых сегментов. Об аналогичных усилиях сообщает и Налоговая служба Мексики, которая имеет собственный отдел, занимающийся моделированием риска.

Служба финансов и бухгалтерии министерства обороны США, ответственная за распределение практически всего бюджета Пентагона, осуществляет миллионы платежей по счетам поставщиков. Дин Эбботт, ведущий консультант по ПА (бывший сотрудник Elder Research, ныне возглавляющий собственную компанию Abbott Analytics), также консультирующий Налоговое управление США, руководил разработкой прогнозной модели, способной выявлять 97% известных случаев фиктивных счетов-фактур поставщиков. Модель оценивает счета-фактуры на основе таких факторов, как время, прошедшее с момента выставления последнего счета; наличие других получателей платежей по тому же почтовому адресу; не является ли адрес абонентским почтовым ящиком и не нарушал ли поставщик порядок выставления счетов.

Помимо этих возможных признаков мошенничества используются и другие инновационные индикаторы, значительно повышающие точность прогнозных моделей. Служба доставки цветов 1–800-FLOWERS существенно улучшила эффективность обнаружения мошенничества, начав учитывать такой параметр, как социальные связи между потенциальными преступниками. На самом деле существует одна мошенническая схема, которую невозможно выявить без такого рода социальных данных. Группа преступников открывает банковские счета и улучшает свои кредитные рейтинги путем перечисления денежных средств между ними. Поскольку денежные переводы происходят только между этими счетами, мошенникам не приходится тратить реальные деньги на проведение этих операций, и они ведут свою маленькую игру с нулевой суммой. После того, как каждый счет заработает себе якобы положительную финансовую репутацию, мошенники берут кредиты, снимают деньги и скрываются. Такая схема может быть выявлена только посредством анализа социальных данных, показывающего, что финансовые операции происходят в рамках замкнутой группы.

Естественно, преступники отвечают на это все большей изобретательностью.

Борьба с мошенничеством: гонка вооружений

Мошенники невероятно гениальны и споры в изобретении новых видов обмана, как только старые перестают работать.

Стивен Левитт и Стивен Дабнер, из книги «Суперфрикономика»

Аналогично тому, как конкурирующие между собой на свободном рынке компании заставляют друг друга самосовершенствоваться, усиление борьбы с мошенничеством вынуждает преступников совершенствовать свои схемы обмана. Действуя все более хитрыми способами, они ускользают от радаров прогнозных моделей. Как чрезмерное употребление антибиотиков может привести к возникновению супербактерии, так и мы, развивая наши методы обнаружения мошенничества, неумышленно создаем себе все более сильного врага.

Но есть и положительные новости. У хороших парней есть неоспоримое преимущество. Помимо творческих способностей, ни в чем не уступающих нашим врагам, у нас есть данные, на которых мы можем обучать и оттачивать наши прогнозные модели. Огромные массивы исторических данных с примерами как мошеннических, так и законных транзакций содержат в зашифрованном виде ключевые признаки, отличающие эти два вида операций друг от друга. И прогнозная аналитика является тем самым средством, при помощи которого можно эти различия выделить. Более того, помимо хранения и индексирования таблицы «сигнатур» (опознавательных признаков), позволяющих выявлять известные схемы мошенничества, прогнозное моделирование генерирует схемы обнаружения, забрасывающие куда более широкие сети. Опираясь на анализ существующих прецедентов, оно позволяет спрогнозировать, какие формы мошенничества могут появиться в ближайшее время. Это характерная особенность обучающейся системы.

Это война

Это война, как и любая другая. На самом деле кибервойны ведутся по тем же правилам, что и настоящие. ПА укрепляет информационную безопасность, помогая выявлять хакеров и вирусы, использующих слабые места онлайновых систем, такие как системные дефекты и прочие уязвимости. В конце концов, технология TCP/IP, лежащая в основе Интернета, изначально предназначалась только для взаимодействий между взаимно доверяющими сторонами. Превратившись сегодня в коммерческую систему с широким доступом, внутри Интернет с точки зрения безопасности представляет собой залатанную на скорую руку дырявую посудину. Как и хаотично застроенный город, он функционирует, но его уязвимые места очевидны.

Применение ПА: системы обнаружения вторжений в сеть

Предмет прогнозирования: какие низкоуровневые интернет-коммуникации исходят от злоумышленников.
Цель прогнозирования: блокирование таких взаимодействий.

ПА повышает эффективность обнаружения, позволяя сделать качественно новый шаг в гонке вооружений между хорошими и плохими парнями. В поле зрения прогнозных систем обнаружения попадает широкий спектр потенциальных атак, тогда как злоумышленники никогда не могут знать наперед, не будут ли раскрыты их действия, просто потому, что у них нет доступа к тем же данным, которые используются для разработки прогнозной модели. Таким образом, применение ПА выводит нас на новый уровень в войне с киберпреступниками.

Но будьте осторожны! Ежедневно каждый из нас подвергается атакам еще одной категории мошенников. Вы защищены?

Свинья в губной помаде

Интернет-услуга не может считаться действительно успешной, пока она не привлекла внимания спамеров.

Рейф Колберн, идеолог развития Интернета

В 1950 году английский математик Алан Тьюринг (1912–1954), отец информатики, задался целью установить, является ли компьютер «разумным» в человеческом смысле слова. Он предложил идею эмпирического теста, который проводится следующим образом: судья (человек) ведет переписку на естественном языке с двумя собеседниками, один из которых — человек, другой — компьютер, причем участники находятся в разных комнатах и не видят друг друга. Судья должен определить, кто есть кто. Этот, казалось бы, простой тест порождает сложный вопрос: если в ходе экспериментов судьи сумели правильно определить, кто скрывается за дверью — человек или машина, — не более чем в 50% случаев (точность, которую можно получить и путем случайных догадок), можно ли сделать вывод, что компьютер прошел тест, сумев обмануть людей, и может считаться умеющим мыслить? Я дам вам подсказку: на эту философскую загадку нет правильного ответа.

На практике компьютеры разводят людей на деньги каждый день. Не верите? Вспомните о виагре, которую вам регулярно пытаются продать по электронной почте. Это называется спамом. Как и андроиды в фантастических фильмах типа «Чужой» и «Бегущий по лезвию», успешный спам создает иллюзию правдоподобия. Спам-сообщение по электронной почте стремится заинтересовать вас и заставить перейти по ссылке. Фишинг-сообщения пытаются выудить из вас идентификационные данные, в первую очередь касающиеся ваших финансов. Спам-боты выдают себя за людей в социальных сетях и на сайтах знакомств, чтобы привлечь ваше внимание. Содержащие спам сайты вводят в заблуждение поисковых роботов, чтобы завлечь вас на свои страницы.

Основанные на ПА спам-фильтры каждодневно проходят свою собственную разновидность теста Тьюринга — непосредственно в вашем почтовом ящике.

Применение ПА: фильтрация спама

Предмет прогнозирования: какие сообщения по электронной почте являются спамом.
Цель прогнозирования: направлять подозрительные сообщения в папку со спамом.

К сожалению, в области спама у хороших парней нет исключительного преимущества перед спамерами в гонке вооружений. Преступники также могут получить доступ к обучающим данным путем тестирования спам-фильтров и воссоздания посредством обратного инжиниринга лежащих в их основе прогнозных моделей, фильтрующих сообщения. Исследователи из Калифорнийского университета в Беркли показали, как это можно осуществить, сделав спам-фильтр абсолютно бесполезным.

Искусственный искусственный интеллект

В отличие от вышеописанной ситуации с маскирующимися под людей компьютерами иногда мы можем наблюдать полную смену ролей: человек выдает себя за машину. В XVIII веке большую популярность завоевал шахматный автомат под названием Механический турок. Он представлял собой восковую фигуру турка, сидящего за деревянным ящиком с шахматной доской на верхней крышке. У турка была подвижная механическая рука, которая переставляла фигуры на доске. На самом деле это было всего лишь «иллюзионное устройство» — внутри ящика сидел маленький человек, умеющий неплохо играть в шахматы и к тому же не страдающий клаустрофобией (шахматы — долгая игра), который и двигал руку манекена. Сам Наполеон Бонапарт и Бенджамин Франклин имели удовольствие проиграть этому чуду человеческого разума — я имею в виду скрючившегося в ящике обманщика.

В современном варианте этой истории живые люди выполняют низкоуровневые задачи для Механического турка Amazon — краудсорсинговый сайт компании Amazon.com, который координирует деятельность сотен тысяч привлеченных пользователей для выполнения «работы, с которой люди пока еще справляются намного лучше компьютеров, такой как распознавание объектов на фотографиях или транскрибирование аудиозаписей». Его девиз — «Искусственный искусственный интеллект». (Это напоминает мне вегетарианский ресторан с блюдом «имитация имитации утки» в меню. Клянусь, на вкус она ничем не отличается от просто «имитации утки».) Как сформулировали эту мысль в 1965 году в НАСА, отстаивая идею отправки человека в космос: «Человек — это самая дешевая, 150-фунтовая нелинейная универсальная компьютерная система, производимая в массовом порядке неквалифицированной рабочей силой».

Но для выполнения некоторых задач людям больше не нужно выдавать себя за компьютер. Все изменилось в 1997 году, когда созданный IBM компьютер Deep Blue обыграл чемпиона мира по шахматам Гарри Каспарова. В основе этой победы лежало прогнозное моделирование. Каким бы быстрым ни был компьютер, совершенство в шахматах невозможно, поскольку существует слишком много возможных сценариев, которые нужно рассмотреть. Ученые сходятся на том, что количество вариантов шахматных партий превышает количество атомов во Вселенной, что является следствием феномена экспоненциального роста. Таким образом, компьютер может заглянуть вперед лишь на ограниченное число ходов, после чего ему нужно прекратить перечисление сценариев и оценить каждую возможную позицию (положение фигур на доске) с точки зрения того, окажется ли она в конечном итоге более или менее выгодной.

Применение ПА: настольные игры

Предмет прогнозирования: какая позиция на игровом поле приведет к победе.
Цель прогнозирования: сделать ход, который приведет к такой позиции на игровом поле, которая в свою очередь приведет к победе.

После поражения в матче, фактически означавшего проигрыш человечества в противостоянии с машинами, Каспаров был настолько впечатлен продемонстрированными Deep Blue стратегиями игры, что обвинил IBM в мошенничестве, как если бы IBM состряпала современного Механического турка, спрятав где-то между материнской платой и жестким диском живого гроссмейстера. Таким образом, компьютер IBM прошел «мини-тест Тьюринга» (неумышленно, но компьютеру удалось обмануть весьма умного человека).

К сожалению, такой прогресс искусственного интеллекта привел к появлению еще одной формы мошенничества: люди, играющие в шахматных онлайн-турнирах, стали прибегать к помощи шахматных компьютерных программ. Началась еще одна гонка вооружений, поскольку администраторы турниров стараются выявлять таких нечестных игроков. Круг замыкается, возвращая нас к компьютерам, которые маскируются под людей, как и в случае со спамом.

Так компьютерный «интеллект» перевернул суть мошенничества с ног на голову. Вместо человека, выдающего себя за машину (Механического турка), теперь мы имеем машины, выдающие себя за людей (например, в шахматных турнирах). Это напоминает мне андроида командира Дейта из сериала «Звездный путь», который страдает синдромом Пиноккио, страстно желая «стать настоящим человеком», и даже устанавливает себе эмоциональный чип. Дайте наконец Железному человеку сердце!

Данные о преступлениях и преступления с данными

Прогнозная аналитика встала на борьбу с преступностью. Она играет центральную роль в противодействии мошенничеству, а также обещает укрепить порядок на улицах.

В рамках этих усилий использование ПА помогает оптимизировать распределение ресурсов. Прогнозы диктуют, на что сотрудники правоохранительных органов должны тратить свое время — какие подозрительные транзакции должны проверить инспекторы на предмет мошенничества и какие улицы следует патрулировать полицейским для предотвращения преступлений.

Но как насчет того, чтобы использовать ПА при принятии решений о том, кто должен сидеть в тюрьме, а кто — быть выпущен на свободу?

Это свершившийся факт: судьи и комиссии по условно-досрочному освобождению прибегают к помощи прогнозных моделей при принятии этих трудных решений. Чтобы разработать такие модели, Департамент по условному осуждению и условно-досрочному освобождению Филадельфии нанял профессора статистики и криминологии из Пенсильванского университета. Директор по исследованиям вышеуказанного департамента Эллен Курц сказала в интервью журналу The Atlantic: «Мы хотим, чтобы каждый человек, проходящий через слушание по условно-досрочному освобождению, оценивался компьютером с точки зрения риска рецидива — повторного совершения преступления».

В штате Орегон запустили свою систему прогнозирования преступлений, с которой консультируются судьи при вынесении приговора осужденным преступникам. Эта программа находится в свободном доступе. Если вы знаете штатный идентификационный номер осужденного и преступление, за которое он был осужден, то можете ввести информацию на сайте Комиссии криминальной юстиции штата Орегон и узнать оценку прогнозной модели: какова вероятность того, что преступник снова совершит уголовное преступление в течение трех лет после освобождения.

Применение ПА: прогнозирование вероятности рецидивизма для правоохранительных органов

Предмет прогнозирования: вероятность повторного совершения преступления.
Цель прогнозирования: учитывать эти прогнозы при вынесении судьями и комиссиями по условно-досрочному освобождению решений о необходимости содержания человека под стражей.

Прогнозная модель, лежащая в основе орегонской программы, работает превосходно. Она была разработана посредством машинного обучения на данных за последние пять лет по 55 000 правонарушителям, осужденным в штате Орегон. Затем модель была протестирована на исторических данных по 350 000 преступникам за 30-летний период. Среди 10% преступников с наименьшим уровнем риска — т.е. тех, кому прогнозная модель ставит самые низкие баллы с точки зрения вероятности рецидива, — доля рецидивистов составляет всего 20%. В то же время из 25% преступников, получающих наивысшие баллы, повторно преступления совершают больше половины.

Применение ПА в правоохранительной деятельности для прогнозирования индивидуального поведения набирает обороты. ПА позволяет выйти за рамки традиционной статистики преступлений и стандартных актуарных моделей. Действующие в штатах Вирджиния и Миссури принципы вынесения приговоров предписывают рассмотрение показателей количественной оценки риска, а в штате Мэриленд используется модель, прогнозирующая убийства. Сегодня компьютер стал уважаемым консультантом, к мнению которого прислушиваются судьи и комиссии по условно-досрочному освобождению.

Действительно, включение в этот сложный процесс объективного, основанного на данных суждения может принести весомую пользу. В конце концов, исследования показали, что случайные внешние факторы могут оказывать значительное влияние на выносимые судебные решения. В ходе совместного исследования Колумбийского университета и Университета имени Бен-Гуриона (Израиль) выяснилось, что голодные судьи склонны выносить более жесткие решения. Так, сразу после завтрака число вердиктов в пользу заключенных (разрешающих условно-досрочное освобождение) находилось на уровне 65%. Ближе к началу перерыва оно падало практически до нуля, однако после перекуса резко восстанавливалось до изначальных 65%. Другими словами, если ваш судья голоден, у вас гораздо больше шансов остаться в тюрьме.

Но хорошо ли это, если будущее преступника будет находиться не в человеческих руках? Учитывая новые полномочия, компьютер будет не просто делать ошибки в прогнозах — он будет вершить несправедливость, способствуя вынесению ошибочных судебных решений. Это совершенно новая арена деятельности для машины, с гораздо более высокими ставками. Просчеты в этой области могут обойтись существенно дороже, чем в других сферах применения ПА. В конце концов, нет ничего страшного в том, если электронное сообщение будет ошибочно помещено в папку для спама или инспектор впустую потратит время на проверку транзакции, которая окажется абсолютно законной.

Безмерный машинный риск

В фантастическом фильме «Особое мнение» главный герой — полицейский Джон Андертон в исполнении Тома Круза, возглавляющий подразделение профилактики преступлений, — занимается поиском и заключением под стражу людей, которые пока не совершили никакого преступления. При этом он сопровождает арест примерно следующими словами: «Властью, данной мне Программой предпреступлений округа Колумбия, я арестовываю вас за будущее убийство миссис Маркс и мистера Дюбина, которое должно было произойти сегодня в 8 часов и 4 минуты утра». Преступники несут наказание не после, а до совершения преступления.

Но не все так уверены в безупречности этой системы, как Андертон. Специальный правительственный агент Дэнни Уитвер проводит расследование деятельности департамента. Однажды во время личной беседы он задает Андертону вопрос: «И у вас не бывает ошибок в работе?»

«Ошибка в работе» — ложноположительное срабатывание или, другими словами, ложная тревога — случается тогда, когда модель выдает прогноз «да», тогда как правильным ответом будет «нет». Она говорит, что вы виновны в преступлении, которого не совершали (или, как в вышеупомянутом фильме, не совершите).

Когда на улицах появятся самоуправляемые автомобили от Google и BMW, в нашей культуре постепенно привьется принятие машинного риска. Количество автомобильных аварий и пострадавших от них в целом резко сократится, и в конечном итоге, несмотря на волны гнева и протестов, мы смиримся с тем, что в некоторых случаях виновным в смерти человека будет компьютер.

Но в некоторых ситуациях у нас никогда не будет роскоши точного знания. Если, руководствуясь положительным прогнозом, мы будем держать в тюрьме преступника, который предположительно может совершить повторное преступление, как мы можем узнать, не ошиблась ли машина с прогнозом и не совершаем ли мы непоправимое? Можно доказать безвредность законной транзакции, ошибочно отмеченной как мошенническая, но как может заключенный опровергнуть несправедливые предположения о том, каким могло бы быть его будущее поведение вне тюрьмы? Если вы что-то предотвратили, как вы можете быть уверены в том, что это непременно произошло бы?

В этом риске несправедливости нет ничего нового, поскольку судьи и комиссии по условно-досрочному освобождению сталкиваются с этой проблемой регулярно, пытаясь предсказать будущее поведение преступников. Последствия этих решений очевидны, но их точность во многих случаях не может быть известна.

Однако, несмотря на общую тенденцию к оптимизации принятия решений за счет использования данных, здесь есть нечто кардинально новое: мы доверяем машинам вносить свой вклад в принятие судьбоносных решений, за которые они не могут нести никакой ответственности. Мы не знаем, что делал бы заключенный, будучи выпущен на свободу. Мы не можем оценить качество этих решений. Традиционно в вынесении таких спорных решений мы привыкли доверять человеческому разуму, несмотря на свойственную ему подверженность ошибкам. Но постепенное расширение этого священного круга доверия неизбежно приведет к культурному сдвигу. Прогнозные модели иногда делают неправильные прогнозы, но во многих случаях ошибаются меньше, чем люди. Использование ПА для поддержки принятия решений означает введение нового типа погрешности суждений, подверженности ошибкам иного рода, что, однако, позволяет сбалансировать ошибки в суждениях человека.

Дальнейшее развитие использования искусственного интеллекта в правоохранительной сфере порождает чрезвычайно серьезные этические проблемы.

Не противоречит ли применение ПА в правоохранительной деятельности фундаментальной идее вынесения суждения о человеке как об индивиде? Справедливо ли прогнозировать поведение конкретного человека на основе прошлого поведения других людей, разделяющих с ним некоторые общие характеристики? Или же следует учесть тот факт, что человеческие прогнозы относительно будущего поведения человека — вероятности совершения им преступлений в будущем — также основаны на предыдущих наблюдениях за другими людьми, поскольку люди также учатся на опыте?
Модель прогнозирования криминальных рисков «дегуманизирует» совершившего преступление человека, упрощая его до ограниченного набора характеристик (переменных, вводимых в прогнозную модель). Но, если применение ПА обещает снизить общий уровень преступности, а также издержки ненужного содержания под стражей, не является ли ущемление гражданских свобод частью приемлемого компромисса при помещении человека в тюремное заключение?
В продолжение этих усилий не должна ли ПА также применяться для способствования реабилитации правонарушителей? Правоохранительные органы могли бы применять ПА для исправления осужденных преступников (например, через прогнозирование того, какие коррекционные меры могут снизить риск рецидива для конкретного человека).

Безопасность часто находится в противоречии с гражданскими свободами. И уравновесить их становится еще сложнее, когда в игру вступает прогнозная аналитика.

Опасность в том, что ПА может получить слишком много власти. Как ребенок, зачарованный магическим шаром (игрушкой, изобретенной в 1950 году), который предназначен выдавать случайные ответы в формате «да/нет» на любые вопросы, принимающие решения люди могут начать чрезмерно доверять рекомендациям системы, принципы работы которой они до конца не понимают. ПА может быть палкой о двух концах: способствуя лучшей информированности судей, она также может склонить их к менее активным наблюдениям и анализу, искушая всецело переложить это на технологию и наделить ее неподобающим доверием. Вот почему пользователям ПА — судьям и членам комиссий по условно-досрочному освобождению — важно помнить, что прогнозные модели составляют свои прогнозы, исходя из намного более ограниченного количества факторов, чем доступны человеческому разуму.

Самореализующееся пророчество предубеждений

Именно тогда, когда вы думали, что в воду вернуться безопасно…

Из фильма «Челюсти-2»

Есть еще одна проблема. Хотя ПА обещает повысить результативность и эффективность правоохранительной деятельности, когда вы формализуете процесс принятия решений и переводите его в количественную форму, вы неумышленно привносите в него существующие предубеждения в отношении меньшинств. Почему? Вследствие циклического характера предубеждений, которые по сути являются самореализующимися пророчествами. И эта цикличность может усугубляться в результате применения ПА.

Используемые в США системы прогнозирования преступлений определяют вероятность рецидива на основе таких факторов, как возраст преступника, пол и место проживания, а также предыдущие преступления, аресты и тюремные заключения. Ни одна разработанная правительственными органами модель не учитывает непосредственно этническую принадлежность или принадлежность к какому-либо меньшинству.

Тем не менее этнический фактор проникает в модели косвенным образом. Например, применяемая в Филадельфии модель прогнозирования рецидивизма включает данные о почтовом индексе нарушителей, притом что известно, что этот фактор имеет высокую степень корреляции с расовой принадлежностью. По этой причине практика красной черты — отказ банков, страховых компаний и других организаций в предоставлении услуг целым географическим районам — признана в Соединенных Штатах незаконной, поскольку косвенным образом свидетельствует о дискриминации по расовому признаку.

Аналогичным образом модели для прогнозирования терроризма принимают во внимание религиозную принадлежность. В своей книге «Суперфрикономика» Левитт и Дабнер подробно излагают историю о поиске подозрительных лиц среди клиентов одного крупного британского банка. Сотрудник банка, занимавшийся выявлением случаев мошенничества, воспользовался имеющимися данными о преступниках, совершивших теракты 11 сентября, а также о других известных террористах и разработал прогнозный алгоритм, позволивший выделить четко определенную группу клиентов, которая могла заинтересовать компетентные органы. Этот микросегмент был выделен на основе таких факторов, как тип открытого банковского счета, определенные характеристики банковских переводов и других операций, наличие мобильного телефона, статус студента, арендующего жилье, а также отсутствие полиса страхования жизни (в случае самоубийства страховка не выплачивается). Кроме того, чтобы сократить полученный список подозрительных лиц до приемлемого размера, аналитик отфильтровал людей с немусульманскими именами, а также тех, кто снимал наличные в банкоматах в пятницу вечером, поскольку в это время правоверные мусульмане обязаны находиться на службе в мечети. Концептуально этот проект недалеко ушел от идеи интернирования потенциальных врагов государства, хотя стоит отметить, что это была индивидуальная инициатива, не финансировавшаяся из правительственного кармана. Хотя эта работа была подвергнута критике как «вопиющий пример кабинетного антитерроризма», существует опасность того, что этот аналитик, передавший властям список подозрительных лиц, вполне может внушить к себе доверие в силу своего статуса представителя банка.

Большинство из нас признает недопустимость использования таких факторов для прогнозирования, однако полностью избежать их влияния не так-то легко.

Бернард Харкорт, профессор политических наук и права в Чикагском университете и автор книги «Против прогнозирования: Профилирование, полицейский надзор и наказание в эпоху статистики» (Against Prediction, Profiling, Policing, and Punishing in an Actuarial Age), сказал в интервью журналу The Atlantic: дискриминационная практика правоохранительных органов указывать при профилировании правонарушителей принадлежность к группе меньшинства приводит к пропорциональному увеличению вероятности того, что представителям этой группы будут приписаны ранее совершенные преступления, а это, в свою очередь, искусственно завышает уровень преступности в этой группе. Но ведь не фактор расовой принадлежности указывает на ранее совершенные преступления, а эти преступления дают информацию о расовой принадлежности правонарушителя. Таким образом, включая в модель фактор ранее совершенных преступлений для прогнозирования будущих, «вы просто переносите существующую сегодня расовую дискриминацию в будущее», указал Харкорт. Так происходит раскручивание спирали предубеждений, которые и без того имеют характер самореализующегося пророчества.

Даже Эллен Курц, активно продвигающая внедрение модели прогнозирования преступлений в Филадельфии, признает: «Если вы захотите полностью устранить фактор расовой принадлежности, вы не сможете использовать вообще никаких данных. Таковы реалии жизни в Америке».

Хотя интеллектуальный анализ данных призван улучшить принятие решений, он неумышленно порождает вопиющую несправедливость. В принципе те же математические методы, которые создают проблему, могут быть использованы и для ее решения через представление указанных предубеждений в количественной форме и включение их в расчеты. Но это может быть сделано только путем введения тех самых данных, которые до сих пор оставались за рамками прогнозного анализа, хотя и находились в центре внимания любого офицера полиции, занимающегося профилированием правонарушителей, — данных о расовой принадлежности. Технически прогнозные модели могли бы делать поправку на этот фактор, если бы данные о расе вводились в систему, но это весьма щекотливый вопрос, способный, подобно спорам о равных возможностей, разворошить осиное гнедо.

Хороший прогноз, плохой прогноз

Неприкосновенность частной жизни является компромиссом между интересами государства и гражданина.

Эрик Шмидт, председатель совета директоров и бывший генеральный директор компании Google, 2011 год

Информационные технологии изменили почти все в нашей жизни… Но, хотя у нас появились новые этические проблемы, у нас не появилось новой этики.

Майкл Лотти

Если говорить о влиянии, становится очевидно, что мы получаем нечестную сделку: мы предоставляем частным организациям — как таковым не заинтересованным в общественном благе и не подотчетным перед обществом — такую силу убеждения, которой никто и никогда не обладал прежде, а в обмен получаем бесплатную электронную почту.

Александр Фурнас, журналист The Atlantic

С бóльшей властью приходит бóльшая ответственность.

Слова мудрого дяди Человека-паука, перефразировавшего Библию, Вольтера и др.

Вопросы прогнозирования преступлений и прогнозирования беременности поднимают противоположные проблемы: первое причиняет вред в случае неправильных прогнозов, тогда как прогнозирование таких деликатных обстоятельств, как беременность, может нанести вред при правильном прогнозе. Подобно рентгеновским очкам, ПА раскрывает новые чувствительные элементы данных, для которых все фундаментальные вопросы конфиденциальности данных должны быть рассмотрены заново. Шерлок Холмс, а также его современный двойник доктор Грегори Хаус внимательно изучают вас и ставят в затруднительное положение: несколько царапин на вашей обуви, и детектив знает, что у вас есть связь на стороне. Ни одна женщина не хочет, чтобы ее беременность была предана огласке помимо ее воли; и можно с уверенностью предположить, что организации также, как правило, не хотят разглашать такие сведения.

Очень заманчиво сбросить подобные вопросы со счетов как безобидные по сравнению с сомнениями, присущими прогнозированию преступлений. Ведущий аналитический портал KDnuggets провел опрос: «Считаете ли вы, что компания Target была неправа, используя аналитику для выявления беременных женщин на основе изменения их покупательского поведения?» Результаты в сообществе аналитиков были следующими: 17% респондентов ответили «да», 74% — «нет» и 9% дали ответ «не уверен». Автор одного из комментариев заявлял, что считает намерение Target абсолютно приемлемым, и задавал вопрос: «Когда в общественном транспорте я уступаю место пожилому человеку или беременной женщине, значит ли это, что я пытаюсь раскрыть деликатные персональные данные, такие как беременность или пожилой возраст? Или я просто пытаюсь помочь человеку, который в этом нуждается?»

Но информация о беременности обладает мощной силой, и ее утечка, особенно не в те уши, может иметь роковые последствия. В одном интернет-издании приводился следующий пример: «Представьте, что у беременной женщины неустойчивое положение на работе, вопрос с выплатой пособий по нетрудоспособности в связи с беременностью и родами еще не улажен, хотя она занимается этим. Однако в данный момент раскрытие информации о ее беременности ставит под риск оплату стоимости родов ($20 000), выплату пособий по нетрудоспособности (от $10 000 до $50 000) и даже ее работу».

Сама компания Google, судя по всему, пожертвовала многообещающей перспективой в области прогнозного моделирования во имя сохранения неприкосновенности частной жизни, прекратив работу над технологией автоматического распознавания лиц людей на фотографиях. Будучи генеральным директором Google, Эрик Шмидт (сейчас — председатель совета директоров компании) выразил обеспокоенность тем, что программы распознавания лиц могут привести к злоупотреблениям со стороны организаций, занимающихся идентификацией людей в толпе. Помимо прочего, это позволит устанавливать местонахождение людей без их согласия. Шмидт признает, что другие организации продолжат разработку таких технологий, но Google предпочитает оставаться в стороне.

Некоторые организации согласны с тем, что иногда лучше не знать. Джон Элдер рассказывает о резко негативной реакции отдела персонала одной крупной компании, когда ему была предложена идея прогнозировать смерть сотрудников. Поскольку смерть — одна из причин потери сотрудников, она входила в имеющийся набор данных. На встрече с представителями компании по поводу прогнозирования текучести кадров один из сотрудников Джона предложил использовать эти данные и получил жесткий отпор. Заказчики проекта заявили, что не хотят и слышать об этом. В отличие от организаций, работающих в сфере здравоохранения, сотрудники этого отдела персонала не были готовы иметь дело с такой конфиденциальной информацией и ее защитой от утечки.

Прогнозирование смерти — настолько деликатное дело, что и сам факт такой деятельности, и сами прогнозы держатся в строгой тайне, даже если это делается с благими целями. Одна из пяти крупнейших американских страховых компаний прогнозирует вероятность смерти пожилых страхователей в течение ближайших 18 месяцев на основании определенных клинических маркеров, содержащихся в последних страховых требованиях об оплате медицинских услуг. На первый взгляд это может показаться сомнительной практикой. Поскольку СМИ любят поразглагольствовать о скрытых мотивах компаний медицинского страхования, на ум невольно приходят мысли об ужасных последствиях. Может ли страховая компания отказаться от оплаты лечения или задержать ее на основании того, что в скором времени вы все равно умрете? Только не в этом случае. Эта страховая компания преследует альтруистические цели. Эти прогнозы служат поводом для предложения специальных консультационных услуг, связанных с окончанием жизни (например, по вопросам составления завещаний и оказания паллиативной помощи). Сотрудник компании сообщил мне, что точность прогнозов весьма высока и проект приносит безусловную пользу клиентам. Несмотря на это, в компании покрываются холодным потом при мысли о том, что проект может получить огласку, и со мной согласились говорить только на условиях полной анонимности. «Это очень деликатный вопрос, который легко неправильно истолковать», — сказал мне сотрудник.

СМИ заходят слишком далеко в своей готовности вынести прогнозной аналитике скоропалительный приговор. Поставить вне закона дедукцию (процесс логического вывода) — сродни тому, чтобы запретить мыслить. Мы мыслим посредством логических выводов. Если я загляну в магазинную тележку своей знакомой и на основе некоторых покупок сделаю вывод, что она может быть беременна, значит ли это, что я только что совершил мыслепреступление — самый тяжкий вид преступлений против Старшего Брата в романе Джорджа Оруэлла «1984»? Резкий поворот сюжета, поскольку критики Target, которые, возможно, сравнили бы применяемый компанией анализ с методами работы Старшего Брата, фактически требуют осудить Target за мыслепреступление. Прогнозирование беременности не служит исключительно корыстным корпоративным интересам, ведь нацеливание маркетинговых усилий как таковое часто служит интересам самих клиентов. В конце концов, несмотря на все свои странности, Шерлок Холмс по-прежнему остается нашим любимым героем, и его разоблачающие дедуктивные выводы служат на благо людей.

«Неприкосновенность частной жизни и прогнозная аналитика часто позиционируются в СМИ как смертельные враги, но так ли это на самом деле?» — задается вопросом Ари Шварц из Национального института стандартов и технологий при Министерстве торговли США. Действительно, некоторые сторонники ПА хотят полной свободы, тогда как ее ярые противники стремятся выплеснуть вместе с водой и ребенка. Но Шварц считает, что «несмотря на наличие между этими двумя мирами реальных противоречий, вполне возможно их мирное сосуществование, если они будут уважительно относиться друг к другу».

Не столь важно, что именно становится известно организации. Важно, что она с этой информацией делает. Получение новых, значимых данных само по себе не является преступлением, но взваливает на организацию груз ответственности. Target знает, как извлечь пользу из прогнозирования беременности без разглашения этих сведений (предполагаемая история с беременной девушкой, если она подлинная, — единичная, хотя и непростительная, оплошность). Однако каждый маркетинговый отдел должен осознать, что, если он способен генерировать из воздуха подобные квазимедицинские данные, он обязан ввести у себя и строго соблюдать правила конфиденциальности и безопасности, которых придерживаются все организации и отделы, имеющие дело с такого рода данными. Раз уж вы это делаете, будьте любезны ответственно этим управлять.

Прогнозная аналитика — важная, стремительно развивающаяся отрасль науки. Способная предсказывать ваше будущее поведение и выявлять ваши намерения, она представляет собой чрезвычайно мощный инструмент, имеющий значительный потенциал для злоупотреблений. Им следует пользоваться с предельной осторожностью. Поскольку сегодня мы активно вступаем в новую информационную эру, что влечет за собой неизбежные культурные сдвиги, нам необходимо прийти к коллективному согласию по поводу того, какое место должна занимать прогнозная аналитика в современном мире.

Источник силы

Как на самом деле работает прогнозная аналитика и насколько хороши выдаваемые ею результаты? Давайте обратимся к данным, начав с того, какое отношение имеет наша эмоциональная, экспрессивная болтовня, которой мы занимаемся на просторах Интернета, к подъемам и спадам нашей экономики.

С властью приходит ответственность Hewlett-Packard, Target и полиция выведывают ваши секреты

Что прогнозирует Target и зачем

Применение ПА: прогнозирование беременности

Многозначительная пауза

Мои 15 минут славы

В свете софитов

Невозможно посадить под замок того, кто умеет телепортироваться

Закон и порядок: политика, политики и контроль

Война вокруг данных

Добывать знания из данных — не значит копаться в вашей личной жизни

Hewlett-Packard изучает саму себя

Применение ПА: удержание сотрудников

Проницательность или вторжение?

Первое испытание

Факторы риска

Доставка динамита

Результаты

Прогнозирование преступлений с целью их предотвращения

Применение ПА: прогнозирование преступлений

Выявление мошенничества

Волк в овечьей шкуре

Применение ПА: выявление мошенничества

Прогнозная аналитика на службе правительства

Борьба с мошенничеством: гонка вооружений

Это война

Применение ПА: системы обнаружения вторжений в сеть

Свинья в губной помаде

Применение ПА: фильтрация спама

Искусственный искусственный интеллект

Применение ПА: настольные игры

Данные о преступлениях и преступления с данными

Применение ПА: прогнозирование вероятности рецидивизма для правоохранительных органов

Безмерный машинный риск

Самореализующееся пророчество предубеждений

Хороший прогноз, плохой прогноз

Источник силы

С властью приходит ответственность
Hewlett-Packard, Target и полиция выведывают ваши секреты