Книга: Социальная физика. Как Большие данные помогают следить за нами и отбирают у нас частную жизнь
Назад: Социометрические бейджи
Дальше: Динамическая приватность: новая парадигма

Приложение 2: OpenPDS

Персональные данные – цифровую информацию о местоположении пользователей, звонках, поисковых запросах и предпочтениях – однажды окрестили «нефтью новой экономики», и то, что мы увидели, подтверждает правдивость этого сравнения. Именно эти данные высокого разрешения позволяют приложениям предлагать «умные» услуги и персонализированный контент. От поиска через Google до списков «рекомендованных фильмов» на Netflix, от Pandora до Amazon – движущей силой всех этих и сотен других сервисов являются данные. Их алгоритмы помогают пользователям оставаться в курсе событий, повышать свою продуктивность и проводить досуг. Эти приложения также являются показательными примерами удивительных возможностей и вполне реальных рисков, связанных с ориентированными на пользователя данными.

Уже сейчас персональные и ориентированные на пользователя данные собираются, обрабатываются и задействуются в широких масштабах; это направление называется «большими данными». Их собирают и хранят сотни различных сервисов и компаний. Такая фрагментация делает данные недоступными для инновационных сервисов, а часто и для людей, являющимися их изначальными источниками. Это не позволяет пользователям в полной мере распоряжаться своими данными, из-за чего им трудно (если вообще возможно) понять связанные с этим риски и справляться с ними. Поскольку бо́льшая часть данных не является анонимной, или же, являясь анонимными, они могут быть заново идентифицированы, это вызывает серьезные опасения. Достижения в области использования и добычи этих данных должны развиваться параллельно разработкам прав собственности и приватности.

На пути к хранилищам персональных данных

Вопросы прав собственности и возможность создания хранилищ персональных данных обсуждаются уже давно. Но использование этих решений в крупных масштабах ставит нас перед проблемой курицы и яйца, так как пользователи ждут появления совместимых сервисов, в то время как сервисы ждут своих пользователей.

Поддержка со стороны политики и законодательства стала поворотным моментом в этой дилемме, как показали недавние результаты моей работы с Джоном Клиппингером в Институте информационного проектирования. Система, разработанная аспирантами и постдокторантами Ив-Александром де Монжуае, Эрезом Шмуэли, Сэмюелом С. Ванем и мной и получившая название openPDS, использует определение «прав собственности» на данные, которое я предложил на Всемирном экономическом форуме в качестве «Нового соглашения по данным», то есть права на владение, использование и распоряжение. Кроме того, эта система соблюдает политику Национальной стратегии по доверенным идентификационным данным в киберпространстве (NSTIC), «Зеленой книги» Министерства торговли США и Международной стратегии президента США по киберпространству. Система openPDS также строго соответствует правилам реформы защиты персональных данных, принятой Европейской комиссией в 2012 году. Все эти рекомендации, предложенные реформы и регуляции признают возрастающую необходимость в том, чтобы персональные данные находились под контролем их владельца, так как именно он может наилучшим образом смягчать связанные с ними риски и выгоды.

В то время, когда пользователи взаимодействуют со множеством компаний ежедневно, оперативной совместимости недостаточно для установления практической собственности на данные, не говоря уже о решении проблем приватности. Для достижения истинной собственности на данные пользователям необходимо защищенное пространство, действующее в качестве централизованной локации, куда можно поселить их данные. Собственное хранилище личных данных (personal data store – PDS) позволит пользователю просматривать и анализировать собираемые данные, а также контролировать поток данных и управлять доступом к их детализации.

В дополнение к урегулированию вопроса о собственности на данные, PDS также является особенно привлекательным решением потому, что оно формирует честный и эффективный рынок данных, то есть рыночную систему, где пользователи могут получить лучшие услуги и алгоритмы для их данных.

Честность: Пользователи управляют доступом к своим данным, а также могут оценивать качество услуг, формируя рейтинги. Они могут решать, достаточно ли велика выгода, предоставляемая сервисом, в соотношении с количеством требуемых данных, учитывая при этом репутацию компании. В этой системе у пользователя будет возможность задавать вопросы вроде: «Достаточную ли выгоду я получу от того, что узнаю название этой песни, взамен отдав данные о моем местоположении?», и если ответ будет отрицательный, он сможет легко перенаправить свои данные в другой сервис.

Эффективность: Пользователи могут посредством простого интерфейса давать новым сервисам доступ к своим данным. Предлагаемая структура устраняет начальные рыночные барьеры для новых предприятий, что позволяет наиболее инновационным компаниям предоставлять лучшие сервисы, работающие на основе данных. Это также дает стимул предприятиям, так как, если пользователи будут выбирать их приложения, им не придется собирать данные собственноручно. В дальнейшем предприятия получат доступ к архивным данным, которые собираются при помощи датчиков смартфона и/или других приложений и услуг. Так, поставщики могут направить свои усилия на обеспечение максимально качественных услуг для своих пользователей, используя для этого все имеющиеся данные. Например, музыкальный сервис может рекомендовать персонализированный набор радиостанций на основе названий песен и исполнителей, симпатию к которым пользователь выразил в интернете, предпочтений его друзей и даже ночных клубов, которые он посещает.

Для хранения, контроля доступа и приватности персональных данных предлагались и другие подходы. Однако система openPDS является уникальной, благодаря, во-первых, своему соответствию современному направлению политико-правовой мысли, а во-вторых, своему динамическому механизму защиты приватности. Предшествующие ей подходы делятся на две группы:

Приватность: Нет сомнений в том, что поисковые запросы, GPS-данные о местоположении и фотографии содержат уязвимую, конфиденциальную информацию. Так, обращение к законным интересам пользователей в отношении защиты приватности является необходимым условием для понимания истинной ценности персональных данных.

Как известно, защита конфиденциальности персональных данных представляет сложную для решения проблему. Риски, связанные с данными высокого разрешения, часто неочевидны, и их трудно предвидеть. Анонимизация данных – задача, которую эксперты окрестили «алгоритмически невозможной». Огромная работа, проделанная в этом направлении за последние несколько лет, позволила выявить риски повторной идентификации или деанонимизации, казалось бы, анонимных наборов данных. Например, было обнаружено, что наборы данных, содержащие информацию о перемещениях миллионов пользователей, теоретически можно повторно идентифицировать при помощи лишь четырех пространственно-временных точек.

Геокосмические данные: Эта информация находится на втором месте в списке типов данных, наиболее часто собираемых мобильными приложениями, и, вероятно, является лучшей иллюстрацией рисков и выгод, связанных с данными высокого разрешения. С одной стороны, недавний доклад Фонда электронных рубежей представил опасения по поводу потенциально конфиденциальной информации, которая может быть получена из геокосмических данных. С другой стороны, количество пользователей приложений, определяющих местоположение, таких как Google Local Search и Foursquare, стремительно растет, так как эти компании успешно демонстрируют преимущества, доступные для пользователей геолокационных сервисов.

Назад: Социометрические бейджи
Дальше: Динамическая приватность: новая парадигма