У вас в любом случае нет никакой конфиденциальности. Смиритесь.
Человеку, подчиняющемуся нормам морали, следует делать чуть больше, чем от него требуется, и чуть меньше, чем ему разрешено.
В предыдущей главе я цитировал Патиля и Мейсон, которые утверждали: «У каждого сотрудника компании должен быть доступ к такому количеству данных, которое только возможно на законных основаниях». Теоретически я с этим согласен, но на практике возникают очень важные моменты, связанные с конфиденциальностью, этикой и безопасностью, которые следует принимать во внимание. В большинстве случаев такие вопросы, как кто и к каким данным должен иметь доступ или как можно использовать полученные данные, больше относятся к области этических норм, которых придерживается сам сотрудник, чем к области, которую регулирует законодательство. В корпоративной культуре на основе данных принято уважать как силу данных, так и природу людей, которые становятся источниками этих данных.
Как компания, в которой развито управление на основе данных, должна работать с данными своих пользователей или клиентов с точки зрения этих трех перспектив?
Я исхожу из предположения, что у компании с управлением на основе данных:
ПРИНЦИПЫ КОНФИДЕНЦИАЛЬНОСТИ
В 1998 году Federal Trade Commission (Федеральная комиссия по торговле США) опубликовала важный документ под названием «Защита личной информации онлайн: доклад для Конгресса» («Privacy Online: a Report to Congress»). Сегодня большинство содержащейся в нем информации кажется устаревшей. Например, на тот момент только 14% детей всех возрастов пользовались интернетом. Сегодня 80% детей в возрасте до пяти лет пользуются Всемирной паутиной еженедельно. Тем не менее один аспект выдержал проверку временем — это пять основных принципов защиты личной информации.
«Пользователи должны быть уведомлены о политике использования данных конкретной компанией, прежде чем у них начнут собирать персональные данные».
«Пользователям должны быть предложены варианты, как могут быть использованы их персональные данные».
«У пользователей должна быть возможность доступа к своим персональным данным, то есть возможность увидеть, как их данные отражаются в системе хранения данных компании, а также возможность подтвердить точность и полноту данных».
«Управленческие и технические способы защиты против утери данных, а также разрешенный доступ, удаление, использование или обнародование данных».
Механизм исполнения других принципов.
Иными словами, по моему мнению, больше данных, больше доступа, больше аналитики означают большую власть и больше риска.
Данные могут наделить властью, но также могут быть очень опасными. Поэтому в этой главе мы рассмотрим некоторые вопросы конфиденциальности, этики и риска, коснемся некоторых опасностей и внешне не совпадающих интересов компаний и их пользователей. По моему мнению, основополагающий принцип, которого компании должны придерживаться в своей деятельности, — эмпатия. Руководствуясь нормами морали и этики как на уровне общей политики компании, так и в обучении сотрудников этическому поведению, и ставя интересы пользователей выше всего, компания сможет завоевать и сохранить доверие своих пользователей, защитить интересы — свои и своих пользователей — и таким образом снизить некоторые из рисков.
К тому моменту, когда автомобиль подъехал к офису компании Uber на Лонг-Айленде, Джош Морер, управляющий подразделением Uber в Нью-Йорке, уже стоял на ступеньках здания с айфоном в руках. Когда журналистка Джоана Буйян вышла из автомобиля, Джош сказал: «А вот и вы. Я отслеживал ваш путь». Он использовал корпоративный инструмент под названием God View, который предположительно доступен большинству сотрудников Uber и обеспечивает наблюдение за автомобилем и местоположением клиента в режиме реального времени. Это был не первый раз, когда компания Uber нарушала конфиденциальность пользователей. На вечеринке по поводу открытия офиса в Чикаго три года назад участники в режиме реального времени наблюдали за передвижениями по Нью-Йорку пользователей, личности которых можно было легко идентифицировать, в том числе венчурного капиталиста Питера Симса.
Все дело в том, что ни в одном из случаев клиенты не были оповещены о том, что данные о них будут использоваться подобным образом, и не давали согласия на это. Да, возможно, компании Uber требуется такой доступ и инструменты для повышения качества обслуживания клиентов, но этот подход выходит за рамки действий, определенных Федеральной комиссией по торговле как «необходимые для исполнения условий договора». В обоих вышеприведенных случаях явно наблюдалось превышение полномочий.
В этих конкретных случаях фактического вреда нанесено не было, но легко можно представить себе сценарий, несущий потенциальную угрозу: человек, скрывающийся от агрессивного партнера; пассажир, вышедший возле клиники, проводящей тестирование на ВИЧ; знаменитость, не желающая встречаться с навязчивым поклонником. (Дана Бойд приводит дополнительные примеры в контексте настроек конфиденциальности Facebook.)
В правилах хранения и использования персональной информации, которые фактически выполняют функцию соглашения между пользователем или клиентом и компанией, должно быть четко определено, кто занимается сбором данных, как этот сбор данных осуществляется, каким образом эти данные будут и не будут использоваться, на каких условиях доступ к ним могут получить третьи лица, каковы последствия отказа предоставить согласие, а также «меры, предпринятые стороной, осуществляющей сбор данных, для обеспечения конфиденциальности, полноты и качества данных».
Очевидно, что компания Uber нарушила эту политику конфиденциальности, однако ее соблюдение — это не единственный вопрос, на котором должны сконцентрироваться все компании. Пользователи обязаны понимать условия политики безопасности. Часто лицензионные соглашения с конечными пользователями (EULA) бывают очень длинными. Представьте: объем «Гамлета» — 30 тыс. слов, а пользовательское соглашение Paypal — 50 тыс., что приблизительно эквивалентно первым семи главам нашей книги. Эти документы содержат кучу юридических терминов, но «простые пользователи» должны согласиться со всеми пунктами. Любой компании стоило бы проявить уважение к своим пользователям и сформулировать политику конфиденциальности таким языком, чтобы она была понятна всем пользователям (то есть была удобочитаема для человека). (Любые порочащие измышления, что юристы лишены человеческих качеств, случайны.) Замечательный пример мирного сосуществования юридических терминов и доступности восприятия для обычного человека — политика конфиденциальности популярной онлайновой платформы CodePen.
Если я просто шучу по поводу лицензий, понятных для обычных пользователей, то для компании Creative Commons это стало важным отличием: лицензии и правовые инструменты этой организации имеют «трехслойный» дизайн, чтобы сделать защиту «эффективной, юридически осуществимой и незаметной».
Пользователи должны быть в состоянии понять, с чем они соглашаются. Социальная сеть Facebook, которая долгие годы буквально утопала в спорах и претензиях по поводу настроек конфиденциальности, в последнее время сделала значительные шаги по улучшению ситуации: ее правила хранения и использования персональных данных по-прежнему очень длинные, но теперь гораздо более четко структурированы и доступны для понимания пользователям, не имеющим юридического образования.
Традиционный правовой инструмент, текст, написанный на «юридическом» языке, обеспечивающий всестороннюю защиту.
Применение технологических подходов, например P3P или Creative Commons, делает тексты лицензий доступными для понимания системами ПО, поисковыми системами и другими видами технологий.
Итак, уважайте своих пользователей, предлагая им правила политики конфиденциальности, которые они могут понять и по поводу которых могут принять информированное решение. Уважайте конфиденциальность пользователей, строго придерживаясь принципов и условий, прописанных в вашем соглашении.
Случай на вечеринке по поводу открытия офиса Uber — пример того, как данные пользователей или контекст (кто и где находился, в какое время) попали в открытый доступ. При этом по мере того как все больше компаний внедряют управление на основе данных, я наблюдаю все больше случаев, как компании собирают множество на первый взгляд безобидных сведений, но чем большей статистической значимостью они обладают, тем серьезнее риск их непреднамеренной утечки.
Несколько лет назад, как раз в разгар скандальных откровений Эдварда Сноудена по поводу несанкционированной слежки АНБ США и горячих дебатов относительно конфиденциальности, я опробовал инструмент под названием immersion («погружение»). Этот инструмент анализировал только метаданные сообщений электронной почты. Метаданные — характеристики сообщения: отправитель, получатель, время отправления. При этом анализ содержания сообщения не проводится. Может показаться, что у этих метаданных весьма ограниченный спектр применения. Однако, когда я воспользовался этим инструментом относительно своей учетной записи электронной почты, я был поражен. Этот инструмент наглядно показал мне группы людей из разных сфер моей жизни, которые знали друг друга, которые могли представить меня другим людям, а также относительную силу этих социальных связей. Фактически это было весьма точным отражением моей социальной сети на тот момент. И это без доступа к содержанию сообщений. В другом примере Латания Суини показывает, что можно идентифицировать 87% американцев исключительно по информации о почтовом индексе, поле и дате рождения. У нас все больше данных и все более сложные инструменты и навыки, позволяющие нарисовать общую картину. Это можно сравнить с картиной Жоржа Сёра, выполненной в манере пуантилизма, только данными.
Незначительные сведения из нашей онлайн-активности и реальной жизни дополняют картину, и аналитики всегда бывают счастливы собрать все кусочки воедино. Однако делать это следует, не преступая этические нормы, которые преимущественно не закреплены законодательно и определяются тем, как их воспринимает сам аналитик.
Один из примеров использования конфиденциальной информации, когда все происходило в рамках закона, но привело к неблагоприятным последствиям, связан с компанией Target. В статье, опубликованной в New York Times и вызвавшей оживленное обсуждение среди специалистов по работе с данными, журналист Чарльз Дахигг рассказывает, как специалисты по маркетингу компании Target попросили одного из аналитиков компании, Эндрю Пола, определить группу покупательниц, которые были беременны, чтобы знать эту информацию до того, как появятся официальные сведения о рождении ребенка. Маркетологи предположили, что, если выделить эту категорию женщин достаточно рано, есть больше шансов заинтересовать их купонами и создать базу лояльных клиентов.
Эндрю и его коллегам удалось успешно определить, какие покупки совершали беременные женщины, и компания начала таргетированную рассылку купонов. Все это вполне в рамках закона, но причина, по которой эта история вызвала такой резонанс среди аналитиков, касается этической стороны и истории отца одной из беременных девушек.
Компания Target занимается рассылкой персонализированных буклетов с купонами. Как правило, потребители охотно пользуются купонами на те товары, которые они в любом случае покупают. Однако реакция беременных женщин была негативной. Поэтому компания начала добавлять купоны на товары, не связанные с беременностью, например купон на покупку газонокосилки вместе с купоном на покупку подгузников, чтобы замаскировать то, что они знали о своих покупательницах. Вот что рассказывает один из руководителей компании: «Мы обнаружили: если женщина не считала, что за ней шпионят, то спокойно использовала купоны. То есть она просто была уверена, что все остальные жители ее квартала получают точно такие же рассылки с купонами на подгузники и детские кроватки. Если покупательницу не спугнуть, наша стратегия работает».
Компания прилагала все усилия, чтобы замаскировать информацию, известную им о своих покупательницах, но это не ускользнуло от внимания одного неравнодушного отца:
Примерно через год после того, как Пол разработал свою прогнозную модель, в офис компании Target в Миннеаполисе вошел мужчина и потребовал встречи с менеджером. Как рассказал один из сотрудников компании, присутствовавший при разговоре, мужчина, сжимавший в руке пачку купонов, был в бешенстве.
«Моя дочь получила это по почте, — заявил он. — Она еще учится в старшей школе, а вы посылаете ей купоны на покупку детской одежды и кроватки. Вы что, занимаетесь пропагандой подростковой беременности?»
Менеджер понятия не имел, о чем говорит этот мужчина. Он взглянул на буклет. Никаких сомнений: буклет был адресован дочери этого мужчины и содержал рекламу детской одежды и мебели, а еще фотографии розовощеких младенцев. Менеджер принес свои извинения, а затем позвонил через несколько дней, чтобы извиниться еще раз. Отец на другом конце провода был явно смущен. «Я поговорил с дочерью, — объяснил он. — Кажется, в моем доме происходит нечто, о чем я не имел ни малейшего представления. Она должна родить в августе. Это я должен принести вам извинения».
Эта рекомендация товаров в форме купонов выдала семье девушки ту информацию, которую она от них скрывала. Это была утечка не P.I.I. — данных, обеспечивающих идентификацию личности, — а, как метко выразилась Дана Бойд, P.E.I. — данных, ставящих в неловкое положение.
Большинство медицинских данных попадает под защиту, например, Закона США о сохранении медицинского страхования и персонифицированном учете в здравоохранении (HIPAA) 1996 года. В данном случае вывод об «интересном» положении девушки был сделан на основе информации о невинных товарах, которые она покупала ранее, например таких, как лосьон без запаха. С правильными данными и инструментами аналитики обладают практически безграничными возможностями вмешиваться в чужие жизни, поэтому им следует тщательно просчитывать возможные последствия этого вмешательства, не только для того, чтобы «не спугнуть» людей.
По моему убеждению, компании с управлением на основе данных должны уважать права и чувства своих пользователей. Возможно, эти компании стремятся постоянно выходить за рамки и собирать все больше и больше данных, способных обеспечить им «пищу» для рекламных кампаний, сервисов и продуктов на основе данных, но в долгосрочной перспективе им гораздо выгоднее завоевывать и поддерживать доверие пользователей.
Самый простой тест, когда вы выбираете новые настройки конфиденциальности или разрабатываете новые стратегии, характеристики или кампании, связанные с данными: вам понравится пользоваться этим самому или предложите вы это своим близким друзьям? Если нет, откажитесь от этой идеи.
В компании Warby Parker главный юридический консультант Анджали Кумар даже дала этому название — фактор «фу». Это качественный показатель меры, как «не спугнуть»; естественно, он не закреплен законодательно, но это напоминание о том, что мы подчиняемся не только юридическому закону, но и «законам совести»: ставим себя на место потребителя и проявляем эмпатию. Как бы себя чувствовал покупатель?
Приведу пример: однажды Анджали возвращалась в Нью-Йорк на поезде. Ее попутчик сошел на одной из станций, но, к сожалению, забыл свои очки. Оказалось, что это очки от компании Warby Parker. Когда Анджали пришла в офис, у нас с ней состоялось серьезное обсуждение, насколько корректно мы поступим, если попробуем найти этого мужчину и вернуть ему очки. Какой в этом фактор «фу»? После долгих размышлений мы решили, что действуем в лучших интересах клиента нашей компании. Мы воспользовались базой данных наших покупателей, чтобы определить того, кто мог быть нам потенциально интересен (как вы помните, у нас была его оправа, мы знали его пол, примерный возраст и на какой станции он вышел). Затем мы сузили круг, и финальной проверкой для нас стало его фото в социальной сети LinkedIn. Анджали отправила своему забывчивому попутчику новую пару очков, роман Джека Керуака «В дороге» и записку:
Привет, Майкл! Это может показаться вам странным, но несколько недель назад вы сидели напротив меня в поезде из Бостона в Нью-Йорк и забыли свои очки. По счастливой случайности я работаю главным юрисконсультом компании Warby Parker и просто обожаю хорошие детективные истории… Надеюсь, у вас все в порядке! Кстати, мы заметили, что линзы на вашей паре очков поцарапались, так что решили прислать вам новую пару. Искренне ваша, АК.
Дело в том, что мы очень серьезно подошли к вопросу использования конфиденциальной информации и поступили так не ради развлечения или потому что у нас была такая возможность. Мы проконсультировались с руководством, насколько корректным будет наш поступок, не напугает ли он нашего клиента и воспримет ли он нашу мотивацию правильно: обеспечить лучшее обслуживание для наших покупателей.
Это был осознанный риск, но, к счастью, клиент оценил наше внимание и написал в социальной сети: «Это лучшее обслуживание, с которым я сталкивался в своей жизни». (Чтобы прояснить ситуацию: мы никоим образом не рекламировали то, что сделали. Единственной нашей мотивацией была польза для клиента. В прессу эта история просочилась, потому что наш чрезвычайно довольный клиент рассказал обо всем на своей страничке социальной сети, а журналист, опубликовавший впоследствии статью, входил в список его контактов.)
ВЫХОДЯ ЗА РАМКИ
Социальная сеть Facebook постоянно испытывает разногласия со своими пользователями, часто выходя за рамки того, какой информацией можно делиться и с кем, а в нескольких случаях даже была вынуждена уступить, когда жалобы от пользователей начали поступать в особо больших количествах. По заявлению Марка Цукерберга, защита персональных данных — «вектор, вокруг которого строится деятельность Facebook», а сам он уверен, что Facebook просто следит за изменением социальных норм: «Теперь люди чувствуют себя гораздо комфортнее, когда открыто делятся самой разной информацией с большим количеством других людей. Эта социальная норма просто изменилась со временем».
Изменения в этом вопросе — в настройках конфиденциальности по умолчанию для различных аспектов на сайте — просто поразительны. Сравните следующие два графика. Первый показывает настройки по умолчанию в 2005 году, а второй — те же самые настройки через пять лет в 2010 году.
Источник: The Evolution of Privacy on Facebook ()
Компании с управлением на основе данных обладают огромной властью. Применяйте ее во благо.
По возможности предоставьте пользователям интуитивно понятные, подходящие инструменты контроля над тем, как используются их данные или каким образом они доступны остальным. Например, это может быть возможность контролировать тип или частоту маркетинговых рассылок, возможность отказываться от принудительных уведомлений от приложений и предложений партнерских организаций. Больше противоречий вызывает то, что персональные данные могут передаваться третьим лицам. Именно это стало источником проблем для разных социальных сетей (Facebook — лишь один пример, см. выше), где изменение настроек по умолчанию еще хуже сказывается на защите персональных данных.
Одна из проблем в том, что даже когда компания действительно обеспечивает защиту персональной информации, многие пользователи не понимают, какие варианты для них доступны. В итоге у большинства из них так и остаются настройки по умолчанию. В этом случае у компании есть по крайней мере два способа действий. Во-первых, поставить себя на место пользователя: сделать меры контроля простыми, интуитивно понятными и четко задокументированными. Во-вторых, поставить защиту персональной информации и уважение во главу угла и действовать исходя из того, что клиент соглашается на использование информации. Обеспечьте пользователям выбор и возможность контроля.
Компания Netflix предлагает интересную возможность в панели настроек пользователя. Пользователь может отказаться от участия в A/B-тестировании (рис. 12.1). Я никогда не видел подобного у других сервисов.
Рис. 12.1. Netflix () предлагает пользователям отказаться от участия в A/B-тестах в настройках своей учетной записи
Здесь налицо конфликт интересов. Компания поступает справедливо, предоставляя выбор пользователям. При этом Netflix активно проводит A/B-тестирования. Чтобы как можно быстрее получить данные A/B тестов, на основе которых можно сделать обоснованные заключения, требуется большая выборка. Отказ пользователей от участия в A/B тестах уменьшает размер выборки, увеличивает время проведения тестов и, возможно, влияет на объективность выборки.
Однако смею выдвинуть предположение, что только очень малая часть пользователей применила эту опцию. Если я прав, то подписчики только выиграли от этого (они могут отказаться от участия в экспериментах, если у них возникли сомнения), а низкий уровень отказа практически не влияет на результаты тестирования и на компанию в целом. В этой ситуации компания Netflix заработала себе хорошую репутацию и почти ничего не потеряла. В этом с нее можно брать пример.
Один из основных принципов защиты персональных данных Федеральной комиссии по торговле — доступ/участие, то есть возможность для пользователя видеть, какая информация о нем хранится в базе данных организации, и возможность подтвердить ее или исправить.
На мой взгляд, это, вероятно, один из наименее проработанных из пяти принципов. Большинство онлайн-сервисов обеспечивают пользователям возможность редактировать информацию профиля и обновлять данные об адресе пользователя, адресе его электронной почты и другую идентифицирующую пользователя информацию. Некоторые организации, особенно социальные сети, позволяют экспортировать архивы данных (например, Twitter и Facebook). Что в большинстве случаев сделать невозможно, так это отредактировать все предшествующие данные, например предыдущие заказы, или просмотреть все «сопутствующие» данные, которые организация о вас собрала (например, из переписи населения США, единой базы недвижимости, от компаний, торгующих данными, из социальных сетей и так далее). Откровенно говоря, это сложно обеспечить. Кроме того, пользователям было бы сложно понять разрозненные записи баз данных. Это могло бы нарушить соглашения относительно данных, приобретенных у других организаций, и, возможно, выдало бы некоторые секреты внутренней кухни компании. Так что я не наблюдаю значительного прогресса в этой области.
Хотя компании с управлением на основе данных, конечно, должны сделать максимально простым процесс обзора и исправления основной информации о пользователях. Это отвечает интересам как пользователей, так и компаний. При наличии данных из разных внутренних источников, например из заявки на кредит и информации по текущему счету в том же банке, есть вероятность привязать одного клиента к идентифицирующей информации другого клиента или внести небольшие изменения в данные на разных этапах ввода (например, «улица» вместо «ул.» или «кв. 6» вместо «№ 6»). Чем проще будет исправить и стандартизировать данные о пользователях, тем эффективнее окажется работа компании на основе данных.
Если бы вы увидели мою учетную запись в Netflix, то получили бы крайне приблизительное представление о моих предпочтениях. Вы увидели бы рекомендации относительно очень разных телесериалов, таких как The Magic School Bus, Gilmore Girls и M*A*S*H. Это создает не совсем верное представление о том, что смотрю лично я. Все дело в том, что этой учетной записью пользуются все члены моей семьи, а потому просмотры и последующие рекомендации фактически сделаны для нас четверых, а не для меня одного. И если у компании Netflix есть концепция профиля, которая помогает выделить таких множественных пользователей, эта функция недоступна на устройстве, с которого я пользуюсь этим сервисом.
Обеспечьте пользователям возможность предложить дополнительный контекст относительно своих данных, который сможет оказать влияние на то, как компания оценивает или использует эту информацию. Например, интернет-магазин Amazon предлагает функцию «Улучшить рекомендации» (Improve Your Recommendations), где пользователь может указать, что какой-то из товаров он приобретал в подарок или что товар не следует использовать при формировании рекомендаций. Пользователь может не хотеть, чтобы какой-то товар использовался при формировании рекомендаций и чтобы ему показывали список похожих товаров в будущем, по многим причинам, в том числе потому что это может поставить его в неловкое положение. Тем не менее, какими бы ни были эти причины, предлагая пользователю возможность исправить, отфильтровать или исключить какую-то информацию, компания получает более точное представление о намерениях пользователя, контексте или его предпочтениях. Этот принцип действует и в обратном направлении: возможно, пользователь почувствует себя более уверенно, если получит информацию, почему ему была предложена подобная рекомендация. Например, в своей учетной записи Netflix я недавно увидел рекомендацию обратить внимание на телесериал «Частный детектив Магнум», «потому что вы смотрели M*A*S*H». Эта рекомендация имеет смысл. Такое объяснение также сможет выявить неточную информацию, которую пользователь хотел бы исключить или исправить.
Итак, благодаря добавлению подобных функций компания может стимулировать двусторонний диалог между собой и пользователем, что приведет к получению более точных данных и контекста и, в конце концов, к предоставлению пользователям более качественного сервиса.
Ранее я упоминал, что меры по снижению риска часто способны ограничить деятельность гораздо больше, чем требуется законодательно. Почему так происходит?
Начнем с простого примера. У многих специалистов по работе с данными, например технических специалистов и администраторов баз данных, имеется доступ к сырым данным о пользователях. Эти данные могут включать имя, адрес, номер телефона, электронную почту и другую информацию, идентифицирующую человека. Закон это разрешает. Такой доступ им предоставляется потому, что они выполняют свои функциональные обязанности, обеспечивая правильный сбор и хранение данных, чтобы организация могла выполнять свои обязательства по деловым сделкам.
Теперь представим специалиста по анализу, который должен проанализировать количество проданных единиц товара в разные дни. Законодательно ничего не мешает этому аналитику получить доступ к сырым данным о пользователях. Однако действительно ли ему требуется такой уровень детализации? Требуется ли ему доступ к этим данным для проведения своего анализа? Фактически ему не обязательно знать, что набор садовой мебели заказала именно Белинда Смит, проживающая по такому-то адресу, с таким-то номером телефона и адресом электронной почты. Все, что нужно знать этому аналитику, — то, что торговая единица 123456 была продана в определенный день.
В большинстве случаев при анализе данные агрегируются, и информация, идентифицирующая пользователей, не требуется.
В своей книге Dataclysm сооснователь сервиса для знакомств OKCupid Кристиан Раддер представляет ряд примеров анализа на основе данных с сайта. За исключением данных медицинского характера вы вряд ли найдете где-то более точную информацию о пользователях, чем на сайте знакомств. В профилях посетителей сайта есть фотографии, указан пол, возраст, сексуальные предпочтения, сферы интересов и другая очень личная информация. Кристиан Раддер рассказывает (с. 233), как он работал с данными:
Любой тип анализа проводился анонимно, а данные агрегировались. Я очень внимательно отнесся к исходным данным. Ни в одних данных не содержалось информации, идентифицирующей пользователя… Там, где использовалась персональная информация, данные шифровались. Кроме того, при любом типе анализа объем данных был ограничен только до необходимых переменных, так что не было никакой возможности связать что-то с конкретными людьми.
Все эти меры предосторожности Кристиан предпринимал по нескольким причинам. Во-первых, он не хотел, чтобы какая-то информация повлияла на объективность результатов анализа. Любой аналитик стремится к тому, чтобы результаты его анализа были максимально объективными. Дополнительная информация может исказить интерпретацию. Например, если вы увидите, что имя пользователя Гертруда, как вам кажется, она молодая или старая? Старая, верно? Эти предположения формируются у вас неосознанно. Вы снизите риск неосознанных предположений, отказавшись от включения дополнительных переменных, и повысите шанс обнаружения истинных закономерностей в агрегированных данных.
Во-вторых, аналитики часто копируют данные для проведения анализа и разработки моделей с помощью других инструментов. Так что иногда, когда один аналитик пользуется инструментом бизнес-аналитики для агрегирования данных, другому аналитику может быть необходимо обработать эти данные в Python или R для разработки сложных прогностических моделей. Часто это означает необходимость экспортирования данных из основного источника хранения данных в файлы на ноутбуке. Каждая копия помимо основного источника данных увеличивает риск для компании. Ноутбук можно украсть или взломать. Аналитик, работающий на своем ноутбуке в зале аэропорта или в кафе Starbucks, подвергается риску, что кто-то увидит информацию на мониторе. Так что чем меньше информации он хранит таким образом и чем больше уровней защиты, тем лучше.
Именно по этим причинам многие компании предпочитают обезличивать информацию, которая отображается в базах данных и инструментах бизнес-анализа для составления отчетов и проведения анализа. Имена, адреса, адреса электронной почты полностью скрываются или зашифровываются.
Например, адрес электронной почты [email protected] с помощью хеша SHA-256 можно зашифровать как f7bf49636a69c6ed45da8dc8d3f445a8a5e6bcc2e08c9a6b2bb66446c402f75c.
(Это действует в одном направлении: можно очень просто превратить адрес электронной почты в зашифрованную последовательность символов, но крайне сложно, если возможно вообще, выделить адрес электронной почты из этой последовательности.). Опять-таки, в большинстве случаев законодательно компании не обязаны это делать, но это явно имеет смысл.
Чем больше количество копий, тем выше риск. Чем больше количество файлов для чтения человеком, тем выше риск. Чем больше передвижений и интеграций разных источников данных — что характерно для компании с управлением на основе данных, в которой продвигается обмен информацией, — тем выше риск. Треть руководителей признались, что «в их компании не удается внедрить управление на основе данных частично из-за вопросов конфиденциальности и безопасности, которые возникают при обмене информацией».
Мы можем сделать заключение в виде принципов, перечисленных ниже.
По заявлению Федеральной комиссии по торговле, «согласно общему мнению, основные принципы защиты конфиденциальности могут быть эффективны только в том случае, если присутствует механизм обеспечения их исполнения».
Конечно, сегодня многие нормативные акты регулируют процессы сбора и использования данных, а также вопросы конфиденциальности. В числе примеров Закон о защите личных сведений детей в интернете (COPPA), Закон США о сохранении медицинского страхования и персонифицированном учете в здравоохранении (HIPAA), совместимость со стандартом безопасности PCI при проведении платежей.
Очевидно, все должны подчиняться требованиям закона. Они обозначают верхнюю границу того, что можно делать с данными на законных основаниях. Однако я убежден, что этого недостаточно. Компании с управлением на основе данных должны руководствоваться в своей деятельности более широкими вопросами этики и фактора «фу» и разрабатывать собственные внутренние правила и принципы деятельности. У них должен быть собственный моральный компас, ориентированный на данные. Они должны принимать во внимание, ожидает ли пользователь, что его данные будут использоваться именно так, и будет ли он с этим согласен. Аналитику следует время от времени задавать себе вопрос: «Как бы я чувствовал себя на месте пользователя?» Фактически это может несколько ограничить спектр того, как аналитик, возможно, хотел применить имеющиеся в его распоряжении данные. Подобно специалистам по маркетингу компании Target, всегда найдутся люди, стремящиеся выйти за установленные рамки (в конце концов, им требуется выполнять собственные KPI), поэтому необходима корпоративная культура, руководство на основе данных и обучение, чтобы установить рамки приемлемого.
В компаниях с активным использованием данных всегда будет наблюдаться некоторое здоровое напряжение между разными командами: так, например, аналитики всегда будут стремиться создавать самые современные продукты с использованием данных, а более консервативные юристы — минимизировать риски для компании. В то время как законодательные ограничения непреложны, существует обширная серая зона, деятельность в которой не нарушает закон, но может вызывать сомнения с морально-этической точки зрения.
Компания должна уважать своих пользователей и разработать руководство, что считать приемлемым и неприемлемым использованием данных. Очевидно, компании нужно установить ограничительную линию для аналитиков, чья работа наиболее тесным образом связана с данными. В компании Warby Parker мы сформулировали, как каждый из наших типов данных (данные клиентов, данные о продажах и так далее) может или не может быть использован при проведении разных видов анализа или маркетинговых мероприятий. Например, в нашем рецепте на очки обычно указывается дата рождения. Мы считаем, что аналитик может воспользоваться этими данными на агрегированном уровне, чтобы лучше понять базу данных наших клиентов за счет изучения распределения по критерию возраста. Однако специалисты по маркетингу не могут на основе этой информации на индивидуальном уровне выбрать, например, категорию клиентов в возрасте 25–34 лет.
В компаниях с управлением на основе данных существует более широкий доступ к данным, поэтому информацией могут пользоваться в том числе специалисты, которые не связаны непосредственно с аналитической работой, но у которых доступ к данным определяется их функциональными обязанностями (например, сотруднику службы по работе с клиентами требуется доступ к их данным). Они используют данные для повышения качества работы. Для этих сотрудников должны быть четкие руководства и система обучения, особенно для молодых специалистов. Например, следует четко заявить, что они не могут использовать информацию о клиентах, об их предпочтениях и так далее в рекламных объявлениях или публикациях на Facebook без их согласия или что они не имеют права изучать базы данных без профессиональной необходимости, например в поисках знакомых, знаменитостей, друзей и так далее. Обеспечьте обучение по этим вопросам. Как сказано в комиксах про Человека-паука: «Большая власть подразумевает большую ответственность». Компании следует активно заниматься вопросами ответственности и перспективы.