1 мая 2013 года состоялось публичное открытие, возможно, первого в мире настоящего фонда больших данных; девяносто научно-исследовательских организаций со всего мира сообщили о результатах проведенного ими анализа данных о мобильности и шаблонах телефонных звонков всего населения африканской страны Кот-д’Ивуар.
Эти совокупные анонимные данные были предоставлены оператором мобильной связи Orange при содействии Левенского университета (Бельгия) и моей лаборатории в МТИ, а также при участии университета Де Буаке (Кот-д’Ивуар), проекта ООН «Глобальный пульс», Всемирного экономического форума и GSMA (международной торговой ассоциации мобильных операторов). Инициативу по «Данным в целях развития» (D 4D) возглавил Николя де Корд (Orange), Винсент Блондель (Левен), Роберт Киркпатрик («Глобальный пульс» ООН), и Билл Хоффман (Всемирный экономический форум).
Эти девяносто проектов охватывают каждый из трех критериев проектирования, предложенных мной. Примером использования данных D 4D в целях улучшения социальной эффективности является работа, которую проделали исследователи Университетского колледжа Лондона, разработавшие метод для создания карты бедности на основе разнообразия в использовании сотовых телефонов. Этот косвенный метод впервые был предложен моим бывшим аспирантом Натаном Иглом и опирается на эффект, который финансовое благополучие оказывает на исследование (см. девятую главу). По мере роста наличного дохода шаблоны перемещения и телефонных звонков становятся все более вариативными. Другой пример применения данных D 4D для достижения социальной эффективности продемонстрировали исследователи Калифорнийского университета в Сан-Диего, которые использовали эти данные для географической разметки этнических границ. Этот метод основан на том, что этнические и языковые группы гораздо больше общаются в своей группе, чем за ее пределами. Этот проект имеет большее значение, поскольку, несмотря на нашу осведомленность о том, что этническое насилие часто вспыхивает на стыке межгрупповых границ, власти и гуманитарные организации, как правило, не уверены в географическом расположении этих зон социального разрыва.
Примером использования данных D 4D в целях достижения оперативности стал анализ системы общественного транспорта Кот-д’Ивуара, проведенный лабораторией IBM в Дублине. Он показал, что среднее время, затрачиваемое на перемещения в Абиджане, крупнейшем городе страны, можно сократить на 10 процентов при очень небольших затратах. Другие исследовательские группы продемонстрировали схожие возможности для улучшения оперативности правительственных, коммерческих, агрикультурных и финансовых систем.
Наконец, к примерам использования данных D 4D для повышения устойчивости относится анализ распространения заболеваний в группах, проведенный Нови-Садским университетом (Сербия), Федеральной политехнической школой Лозанны (Швейцария) и Бирмингемским унивеситетом (Великобритания). Они показали, что небольшие изменения в системе государственного здравоохранения потенциально могут сократить распространение гриппа на двадцать процентов, а также существенно снизить уровень заболеваемости ВИЧ и малярией. Эти выборочные результаты представляют собой лишь несколько образцов потрясающей работы, которая стала возможной благодаря этому богатому и уникальному фонду больших данных. С этими и другими подобными результатами можно ознакомиться на веб-сайте http://www.d4d.orange.com/home.
Каждый из этих исследовательских проектов, основанных на «Данных в целях развития», показал огромные возможности общего фонда больших данных в области улучшения нашего общества. С точки зрения компании Orange, это также раскрыло потенциал для новых направлений бизнеса, сочетающих такой фонд данных с индивидуальными персональными данными: представьте себе мобильное приложение, которое подсказывает пассажирам, на каком автобусе они смогут быстрее всего доехать до работы, или дает гражданам рекомендации по уменьшению риска заболевания гриппом.
Работа этих девяноста исследовательских групп также предполагает, что многие страхи по части конфиденциальности, связанные с обнародованием данных о поведении людей, могут быть вызваны недопониманием. Данные фонда обрабатываются при помощи новейших компьютерных алгоритмов (например, усложненная процедура отбора и использование сводных показателей), так что маловероятно, что какой-либо индивид может быть заново идентифицирован. На самом деле исследовательским группам, изучавших этот конкретный вопрос, не удалось найти ни одного пути к повторной идентификации.
Кроме того, несмотря на то, что данные были свободно доступны для любого законного исследования, они распространялись в соответствии с правовым договором – аналогом того, что используется в сетях доверия, – в котором уточнялось, что они могут быть использованы только для заявленной цели и только теми людьми, кто подал это заявление. Применение передовых компьютерных алгоритмов и договорного права для установления и проверки того, как личные данные будут использоваться и распространяться, – такова цель новых правил конфиденциальности в ЕС, США и других странах.
Поведенческие данные, такие как данные переписи, всегда были необходимы как для государственного управления, так и для производства. В новую эру больших данных мы должны убедиться в том, что данные цифровых фондов находятся в свободном доступе, и в то же время мы должны защищать конфиденциальность и безопасность людей, жизнь которых в них отражена. Нам нужно новое соглашение по данным, из которого люди смогут узнать, для чего используется касающаяся их информация, а также о преимуществах и рисках, связанных с их использованием, чтобы они могли выбрать, как именно их данные будут распространяться – и на индивидуальном, и на коллективном уровне, через правительство.