Книга: Наука о данных: Базовый курс
Назад: Глава 5. СТАНДАРТНЫЕ ЗАДАЧИ НАУКИ О ДАННЫХ
Дальше: Глава 7. БУДУЩИЕ ТЕНДЕНЦИИ И ПРИНЦИПЫ УСПЕШНОСТИ
Глава 6

Конфиденциальность и этика

Самый большой вопрос, стоящий сегодня перед наукой о данных, — как найти баланс между свободой частной жизни отдельных лиц и меньшинств и безопасностью и интересами всего общества. В контексте науки о данных этот старый вопрос формулируется с точки зрения того, что считать разумными способами сбора и использования персональных данных в таких разнообразных контекстах, как борьба с терроризмом, улучшение медицины, исследования государственной политики, борьба с преступностью, выявление мошенничества, оценка кредитного риска, страхование и таргетированная реклама.

Наука о данных предлагает свой способ для того, чтобы понять мир. В нынешнюю эпоху больших данных это предложение очень заманчиво, и действительно существует целый ряд аргументов в поддержку разработки и внедрения инфраструктуры и технологий, основанных на данных. Первый аргумент связан с повышением эффективности, экономичности и конкурентоспособности — аргумент, который в контексте бизнеса подтверждается научными исследованиями. Например, исследование, проведенное в 2011 г. с участием 179 крупных публичных компаний, показало, что чем больше решений принимается на основе данных, тем выше производительность: «Мы видим, что фирмы, которые принимают решения на основе данных, имеют производительность на 5‒6% выше, чем можно было бы ожидать, учитывая другие их инвестиции и использование информационных технологий» .

Еще один аргумент в пользу широкого внедрения методов науки о данных связан с безопасностью. Правительства часто его используют, оправдывая наблюдение и слежку долгосрочным повышением уровня безопасности. Как бы то ни было, начиная с 11 сентября 2001 г. и с каждым новым терактом этот аргумент набирал силу. Его использовали в публичных дебатах, которые начались после того, как Эдвард Сноуден раскрыл информацию о программе наблюдения PRISM Агентства национальной безопасности (АНБ) США, регулярно собирающей данные об американских гражданах. Красноречивым примером силы этого аргумента являются $1,7 млрд, инвестированные АНБ в центр обработки данных в Блаффдейле, штат Юта, который способен хранить огромное количество перехваченных сообщений .

В то же время общество, государственные структуры и бизнес пытаются понять долгосрочные последствия применения науки о данных в мире больших данных. Учитывая быстрое развитие технологий сбора, хранения и анализа данных, неудивительно, что действующая правовая база и более широкие дискуссии вокруг этой темы, в том числе о неприкосновенности частной жизни, пытаются идти в ногу с достижениями прогресса. Несмотря на это, существуют основные правовые принципы сбора и использования данных, которые применимы почти всегда и которые важно понимать. Кроме того, дискуссии об использовании данных и конфиденциальности выявили ряд тревожных тенденций, о которых мы должны знать.

Коммерческие интересы против частной жизни

Науку о данных можно представить как процесс создания процветающего и безопасного мира. Но одни и те же аргументы могут использовать организации, имеющие очень разные повестки. Мы видим противоположные призывы: с одной стороны, от групп защиты гражданских свобод к большей открытости правительств в отношении данных, чтобы граждане могли привлекать правительства к ответственности, и с другой — призывы деловых кругов использовать эти же данные для увеличения прибыли . Поэтому наука о данных — это палка о двух концах. Она может быть использована для улучшения жизни за счет повышения эффективности государственного управления, развития медицины и здравоохранения, удешевления страховки, создания умных городов, снижения уровня преступности и прочего. Но в то же время ее можно использовать для слежки, таргетирования нежелательной рекламы и поведенческого контроля — как в открытую, так и тайно (страх слежки может влиять на нас не менее негативно, чем сама слежка).

Часто противоречивость аспектов науки о данных можно увидеть в одном и том же приложении. Например, в андеррайтинге в сфере медицинского страхования используются сторонние маркетинговые наборы данных, которые содержат такую информацию, как покупательские привычки, история веб-поиска, а также сотни других атрибутов, касающихся частной жизни людей . Использование таких данных от третьих сторон вызывает беспокойство, поскольку может привести к тому, что люди начнут избегать определенных видов активности, скажем посещения сайтов экстремальных видов спорта из-за боязни повышения страховых взносов . В оправдание использования этих данных приводится тот факт, что они выступают в роли аналога более агрессивных и дорогих источников информации, таких как анализы крови, и в долгосрочной перспективе сокращают расходы и страховые премии, таким образом увеличивая количество застрахованных людей .

Линия раскола между сторонниками коммерческих преимуществ и сторонниками этических соображений становится особенно очевидной в дискуссиях об использовании персональных данных для целевого маркетинга. С точки зрения рекламного бизнеса стимулом к такому использованию является наличие связи между персонализацией услуг и продуктов и эффективностью маркетинга. Было показано, что использование персональных данных из социальных сетей, например, для идентификации потребителей, связанных с действующими клиентами, повышает эффективность прямой почтовой рассылки от телекоммуникационных компаний в 3‒5 раз по сравнению с традиционным подходом . Аналогичные заявления были сделаны о персонализации интернет-маркетинга на основе данных. Например, проведенное в 2010 г. исследование стоимости и эффективности таргетированной онлайн-рекламы в США сравнило сетевой маркетинг с поведенческим таргетингом . Исследование показало, что поведенческий таргетинг в среднем обходится в 2,68 раза дороже, но и коэффициент конверсии в этом случае превышает аналогичный показатель сетевого маркетинга более чем в два раза. Другое совместное исследование эффективности интернет-рекламы, основанной на данных, было проведено учеными из Университета Торонто и Массачусетского технологического института . В этом исследовании эффективность онлайн-рекламы в пределах Европейского союза, где был введен новый закон о защите конфиденциальности, ограничивающий возможность рекламных агентств отслеживать действия пользователей в интернете, сравнивалась с эффективностью онлайн-рекламы в США и других странах, где не действовали новые ограничения. Исследование показало, что из-за новых ограничений эффективность интернет-рекламы значительно снизилась: падение покупательской активности участников исследования составило 65%. Результаты этого исследования были оспорены (см., например, ), но они продолжают использоваться в поддержку аргумента, что чем больше доступно информации о человеке, тем более эффективна направленная на него реклама. Зачастую сторонники целевого маркетинга подают этот аргумент как беспроигрышный и для рекламодателя, и для потребителя, утверждая, что рекламодатели снижают маркетинговые затраты за счет сокращения расходов на рекламу и достижения лучших показателей конверсии, а потребители получают более релевантную рекламу.

Этот утопический взгляд на использование персональных данных для целевого маркетинга в лучшем случае основан на избирательном понимании проблемы. Вероятно, одна из самых тревожных историй, связанных с целевой рекламой, была опубликована в The New York Times в 2012 г. и касалась американского сетевого ритейлера — компании Target . Маркетологи знают, что одна из причин, радикально меняющих покупательские привычки человека, — рождение ребенка. Из-за этого беременность рассматривается маркетологами как потенциальная смена привычек покупателя и приверженности брендам. Это хорошо известное явление, поэтому многие ритейлеры используют общедоступные сведения о рождениях, чтобы инициировать персонализированный маркетинг для молодых родителей, отправляя им предложения, касающиеся детских товаров. Чтобы получить конкурентное преимущество, Target решила выявлять беременность клиентов на ранней стадии (в идеале во втором триместре), но без ведома будущих матерей. Это понимание должно было позволить Target начать персональный маркетинг прежде, чем другие ритейлеры узнают, что ребенок уже на подходе. Для достижения этой цели Target инициировала проект науки о данных с целью прогнозирования беременности на основе анализа покупательских привычек. Отправной точкой проекта стал анализ покупательских привычек женщин, скачавших составленный Target список покупок для будущего ребенка. Анализ показал, что в начале второго триместра беременные женщины, как правило, покупали большое количество лосьона без запаха, а в течение первых 20 недель беременности часто приобретали определенные пищевые добавки. На основе результатов анализа Target создала модель, использующую около 25 товаров и показателей, и присвоила каждому клиенту оценку «прогноз беременности». Успех этой модели, если можно так выразиться, стал очевидным, когда в магазин Target пришел мужчина, который пожаловался, что его дочь-старшеклассница получила по почте именные купоны на детскую одежду и кроватки. Он обвинил Target в том, что компания пыталась убедить его дочь забеременеть. Однако через несколько дней выяснилось, что его дочь на самом деле была беременна, просто держала это в секрете. Модель прогнозирования Target смогла распознать беременную старшеклассницу и использовать эту информацию еще до того, как та решилась открыться своей семье.

Этические последствия науки о данных: профилирование и дискриминация

История о том, как Target выявила беременность старшеклассницы без ее согласия и ведома, показывает, каким образом наука о данных может использоваться для социального профилирования не только отдельных лиц, но и меньшинств. Изучая конкретные кейсы целевой рекламы, Джозеф Туроу в своей книге «Ежедневный ты» (The Daily You) рассказывает, как маркетологи используют цифровое профилирование для классификации потребителей на целевых и нецелевых, после чего персонализируют предложения и рекламные акции, адресованные конкретным лицам: «Нецелевые потребители игнорируются или перемещаются на другие продукты, которые маркетологи сочтут более подходящими их вкусам или доходам» . Такая персонализация может привести к привилегиям для одних и понижению социального статуса других. Ярким примером этого является дифференцированное ценообразование на сайтах, где с одних клиентов взимают больше, чем с других, за один и тот же продукт, основываясь на их профилях .

Часто эти профили создаются путем получения данных из нескольких отрывочных источников с высоким содержанием шума. Поэтому профиль может вводить в заблуждение относительно личности человека. Хуже всего то, что такие маркетинговые профили рассматриваются как продукты и продаются другим компаниям, в результате чего негативная маркетинговая оценка может преследовать человека в разных областях. Мы уже обсуждали использование маркетинговых наборов данных в качестве основы для страхового андеррайтинга , но эти же профили могут влиять и на решения, касающиеся оценки кредитного риска, и на многие другие процессы, влияющие на человеческую жизнь. Два аспекта маркетинговых профилей делают их особенно проблематичными: их природа «черного ящика» и устойчивость. Природа «черного ящика» не позволяет человеку узнать, что о нем записано в профиле, где и когда это было записано и как работают процессы принятия решений, использующие эти данные. В результате если человек попадает в черный список заемщиков или пассажиров авиакомпаний, то «весьма затруднительно докопаться до причин такой дискриминации и оспорить их» . Более того, в современном мире, где компьютерная память обходится дешево, данные часто хранятся в течение длительного срока. Поэтому записи о событиях в жизни человека продолжают существовать еще долго после самого события. Туроу предупреждает: «Превращение персональных профилей в персональные оценки — это результат того, что профиль начинают воспринимать как репутацию» .

Назад: Глава 5. СТАНДАРТНЫЕ ЗАДАЧИ НАУКИ О ДАННЫХ
Дальше: Глава 7. БУДУЩИЕ ТЕНДЕНЦИИ И ПРИНЦИПЫ УСПЕШНОСТИ