Книга: Big data простым языком
Назад: Impact investment – у каждого рассказа должна быть цель
Дальше: Суровые европейские консерваторы

Глава 4
Регулирование данных

Р – регулирование.
Данные и капитализм.
Штука бесполезная и беспощадная во всех отношениях. Ценности в регулировании де-факто мало, оно лишь снижает скорость развития в цифровой экономике.
Нет однозначной истории, как же регулировать данные.
Во-первых, с юридической точки зрения надо определить, что такое данные. А с этим не только в нашей стране беда, но и в международном пространстве нет единства и понимания по таким вопросам.
В США, например, нет законов, прямо регулирующих Большие данные. Иными словами, ты можешь пострадать, только если косвенно затронешь чьи-то интересы, и они это докажут.
В самом начале я говорил, что есть две стратегии работы с данными:
1. Либо нападение – то есть используем те данные, которые есть, с целью побольше заработать.
2. Либо защита – сидим на данных, никому не даем и защищаемся от всячески возможных рисков и возникающих сложностей.
Итак, родина капитализма, конечно же, предпочла первый вариант. Что там делают с вашими данными – похоже на какофонию и безумную спонтанную оргию организаций, которых вместе никто не собирал и к сотрудничеству не приглашал.
Конечно, есть небольшие исключения, и это хорошо. Они как раз структурируют и задают общий тон того, что делать можно, а что – не очень.
Кстати, именно в США в 2010 году был известный скандал в магазинах Target, когда их точнейшие аналитические алгоритмы определили, что несовершеннолетняя школьница ждет ребенка. Конечно, первым прибежал ее отец и чуть не поубивал менеджеров Target за непристойный контент и предложения школьнице рожать.
А все началось с Эндрю Пола, который в 2002 году работал статистиком в Target. К нему подошли его коллеги и спросили его, «может ли он выяснить, беременный покупатель или нет, даже он не хочет, чтобы мы как магазин знали?».
Эндрю имел магистерскую степень по статистике и еще одну – по экономике, и, конечно же, был повернут на анализе поведения пользователей с использованием данных.
Спустя 16 лет с того безумного вопроса, ответ на который сделал Эндрю Пола мегазнаменитым и успешным гостем выпусков новостей и ток-шоу в связи с эпичным скандалом, он ушел из ритейла в банкинг. Он вышел работать вице-президентом по персонализированной аналитике в пятый по величине банк США, USBank. Чем-то похоже на наш топ-5 банк, за одним исключением, что USBank ровно в десять раз больше, чем банк, находящийся на 5 месте в РФ, и даже больше, чем известный банк находящийся на первой строчке рейтинга в России. В USBank Эндрю будет развивать совершенно новое направление. Кстати, Target – это пятый по величине ритейлер в США, так что тенденция у Эндрю на лицо.
Но вернемся назад, в начало 2000-х. Сакральная мысль позади идеи взлома и анализа поведения беременных покупателей была крайне простой – молодые родители, считались Священным Граалем для сети Target. Обычно покупатели не берут все в одном магазине, они покупают везде понемногу. При этом, сеть Target продавала все виды товаров: от питания до мебели.
И, конечно, их главная мысль была стать брендом первого выбора, чтобы за любым предметом люди шли в Target. Абсолютно такая же крамольная идея лежит и в головах банкиров – стать банком первого выбора, чтобы везде платили только их карточкой.
Как мыслили тогда маркетологи: обычно человек в рутине, и до него сложно достучаться. Есть только несколько моментов в жизни, когда эта обыденность отступает, – покупатель прислушивается и готов покупать все подряд. Один из таких моментов – рождение ребенка. Тогда родители готовы перевернуть магазин вверх дном, чтобы найти самую крутую колясочку и самую прикольную кроватку. Другие события, когда человек выныривает из рутины, – например, когда слышит любимую музыку.
И тут великие маркетологи сказали Эндрю, что важен момент. А именно, момент до рождения, который потом будет занесен во все публичные источники и базы данных. Нужно ловить пап и мам тогда, когда их чадо еще не увидело свет. Было бы идеально, если бы Эндрю смог разработать модель, позволяющую вычислять второй триместр беременности, чтобы приклеить к себе покупателя на годы.
Данные, которые собирались, привязывались к общему идентификатору программы лояльности. Собственно, как и в других магазинах в любой стране мира. Идентификатор карточки лояльности обычно связан с простеньким соцдемом – возраст, пол, есть ли дети и так далее. Дальше, используя номер телефона, например, можно взять данные из базы резюме и прикинуть, сколько человек получает на той или иной позиции. Для этого существует целая тонна обзоров и прочих сервисов.
Напомню, телефонный номер, по которому можно получить эту информацию из баз данных HeadHunter и других ресурсов, не является объектом закона о персональных данных в России.
Таким образом, мегамоллы могут быстро прикинуть, какой у вас доход, а данные операторов, помогут рассчитать, как далеко вам нужно добираться до дома. А дальше происходит простая магия чисел и вычислений. В основу модели Эндрю легли 25 продуктов, которые будущие мамы покупали в сети. «Большой бум» произошел в том, как люди пытаются предсказать поведение других людей.
Люди смогли предсказать, что нужно делать, чтобы перестать кусать ногти, или почему одни любят ходить на работу, а другие прокрастинируют каждое утро. Причем те, кто прокрастинируют, как раз и грызут свои ногти.
Есть в этом что-то позитивное, когда пытаешься предсказать поведение пользователей. Ищешь новые знания и все-такое. Конечно, доступ к данным тут является лютым и самым важным обстоятельством. Нейрофизиология вообще как область науки, важна для ответа на вопрос «почему мы действуем сегодня так, а не иначе».
Для получения данных по медицинским исследованиям придется разобраться в структуре закона о «Страховании здоровья и ответственности» (HIPPA), который был принят в 1996 году Конгрессом и объединил регулирование как в отношении сотрудников, так и в отношении предоставления медицинских сервисов широким слоям населения. Идея HIPPA проста – стимулировать появление медицинских планов для всех групп пациентов. Основой, на которой предполагалось выполнять такое стимулирование, стал электронный документооборот истории болезни.
Спустя двадцать лет, конечно же, возникли проблемы, так как все перешло в цифровую среду. Например, те же фитнес-трекеры, которые собирают медицинскую информацию о сердцебиении, и GPS-координаты – должны соответствовать требованиям конфиденциальности медицинских данных по итогам пересмотра HIPAA в HITECH Act в 2009 году. Это, кстати, единственное, чему они должны соответствовать сегодня в США.
В законе нет общих правил нарушения, каждый кейс должен рассматриваться индивидуально. Есть только общий штраф за нарушения в размере 250 тысяч долларов, если это произошло в первый раз, и полутора миллиона долларов, если нарушение использования данных продолжается. Единственное, закон не так сильно соблюдается и мониторится со стороны властей.
А чтобы можно было работать с данными о финансовых транзакциях, Соединенные Штаты предлагают действовать в рамках требований по конфиденциальности в части Грэмм-Лич-Блайли акта. Этот закон инициировали республиканец Фил Грэмм и конгрессмены Джим Лич и Том Блайли. Потому что там участвовала республиканская партия, я думаю, понятно, что закон направлен на снятие ключевых барьеров в развитии банковского сектора.
Конечно, любая такая идея всегда упирается в деньги. Всегда. Просто потому, что деньги были и пока остаются единственным интерфейсом, как люди одной профессии ставят людям другой профессии разные задачки. Так, когда Эндрю Полу поставили задачку, то он представил своего виртуального покупателя, девушку, которая тратит в год не более тысячи долларов. Пол прикинул, что будет, если, например, она выйдет замуж и у нее появятся дети, увеличится ли сумма ее ежегодных трат до пяти тысяч долларов? А если сравнить ее с неким виртуальным клиентом, мужчиной, который продолжает по-прежнему тратить только тысячу долларов, то логичнее было бы для Target не тратить деньги на рекламу, сегментирование таких низкодоходных клиентов и выпуск специальных предложений вроде купонов на покупку. При правильной игре такая модель, как уже понятно, позволит увеличить доход на клиента в пять раз. Вдумайтесь, в пять раз.
Чтобы построить такую модель, которая дает точность в 86,5 процента, потребовалось добыть конкретные данные. Сама модель при этом оставалась возобновляемой, и ее можно было воспроизвести в разных сегментах розничной торговли, банкинге или финтехе. Ключевыми данными тут выступили:
• идентификатор карты лояльности в сети Target,
• имя и адрес проживания,
• банковская карта,
• история покупок в магазине,
• история онлайн покупок,
• номер мобильного телефона,
• действия, предпринятые пользователем в ответ на электронные письма Target в почтовом ящике (клики, переходы и так далее),
• куки и активность по поисковым запросам и просмотрам в Интернете.
Полное видео с выступления 2010 года Эндрю Пола можно увидеть по ссылке. Позади таких исследований всегда стоит основная гипотеза, которая постепенно превратилась в аксиому «что есть паттерны поведения». Как только мозг сталкивается с определенной ситуацией, в которой он уже был, он автоматически включает определенный паттерн. Изучив такие паттерны, можно управлять знанием, экономикой и покупательской способностью. Поэтому данные будут собирать, поэтому данные будут покупать. Это гонка, и она будет только ускоряться.
Стоит отметить, что это лишь малая часть данных, которые мы оставляем о себе, и не все из них попадают под регулирование. Так, номер мобильного телефона сам по себе не является объектом регулирования для закона о персональных данных в РФ.
Назад: Impact investment – у каждого рассказа должна быть цель
Дальше: Суровые европейские консерваторы