Книга: Темные данные: Практическое руководство по принятию правильных решений в мире недостающих данных

Назад: ГЛАВА 8. Принцип работы с темными данными. Проливаем свет

Дальше: ГЛАВА 10. Классификация темных данных. Путь в лабиринте

Глава 9

Полезные темные данные

Переосмысление вопроса

Сокрытие данных

Может показаться, что темные данные — это сплошные проблемы и недостатки. Да, ключевым посланием этой книги является призыв к осторожности. Но есть методы, с помощью которых мы можем использовать темные данные в собственных интересах, при условии, что хорошо понимаем свои действия и соблюдаем должную осмотрительность. Другими словами, существуют методы, с помощью которых мы можем оседлать нашу темную лошадку — направить неопределенность, присущую темным данным, против них же самих, что позволит достичь лучшего понимания, делать более точные прогнозы, повысить эффективность действий в различных областях и даже просто экономить деньги. Все это становится возможным, если стратегически игнорировать часть данных и намеренно уводить их в тень.

Исследование этой идеи мы начнем с того, что переформулируем некоторые уже знакомые нам статистические идеи. Другими словами, мы посмотрим на них под новым углом, с точки зрения активного сокрытия информации или данных. В начале главы мы по-новому взглянем на те идеи, с которыми уже сталкивались в предыдущих главах, а затем познакомимся с некоторыми новыми перспективными идеями, способными сделать статистические методы работы с темными данными более совершенными.

Хорошую иллюстрацию нестандартного подхода к темным данным дает формирование выборки из ограниченной совокупности. В главе 2 мы рассматривали методы создания выборки для опроса и затрагивали тему недополученных ответов, но даже несмотря на это опросы представляют собой один из наиболее популярных и простых способов обратить темные данные себе на пользу. Обычно, когда говорят об опросах, то имеют в виду использование значений (случайного) подмножества всех членов определенной группы населения. Но альтернативный подход может состоять в том, чтобы формировать выборку, специально предназначенную для помещения ее в область темных данных. В конце концов, формирование 10%-ной выборки для последующего анализа эквивалентно формированию 90%-ной игнорируемой выборки. Идея заключается в том, что всякий раз при работе с выборкой мы можем думать о ней либо как о выборе данных для исследования, либо как об игнорировании оставшейся части совокупности и превращении ее в темные данные.

Обратите внимание, что случайный выбор (или по крайней мере «вероятностная выборка») здесь имеет решающее значение. Выбор любым другим способом может привести к проблемам, уже описанным в этой книге. Использование случайного выбора означает, что недостающие значения относятся к категориям NDD или SDD, а в главе 8 вы смогли убедиться, что с этими типами темных данных можно справиться.

Сокрытие данных от самих себя: рандомизированные контролируемые исследования

Формирование выборки для анализа и, следовательно, выборки для отбраковки — самый простой пример использования темных данных. Другое их применение — рандомизированное контролируемое исследование, которое мы тоже уже обсуждали в главе 2. Предположим, что мы хотим определить, является ли предлагаемый новый метод лечения некоего заболевания лучше стандартного. Мы уже знаем, что основная стратегия состоит в том, чтобы случайным образом назначать каждому пациенту одно из двух лечений и сравнивать средние значения результатов в каждой группе.

Случайное назначение методов лечения служит гарантом беспристрастности. Оно выводит процесс распределения из сферы нашего выбора, делая его непрозрачным, не подверженным манипуляциям и влиянию предубеждений, как преднамеренных, так и неосознанных. Это качество случайности давно и по достоинству оценено. Как сказано в Библии: «Жребий прекращает споры и решает между сильными» (Притчи 18:18).

Идея случайного распределения пациентов по группам лечения имеет большой потенциал. По сути, она означает, что мы можем быть с высокой вероятностью уверены в том, что любые измеренные различия между группами связаны именно с лечением, а не с какими-то другими факторами. Другими словами, случайное распределение разрушает причинно-следственные связи: оно позволяет утверждать, что любые зарегистрированные различия вряд ли будут иметь отношение к различиям, существовавшим между людьми до исследования. Разрыв некоторых причинно-следственных связей означает, что различные исходы должны объясняться не возрастом, полом или другими, присущими людям факторами, а разными методами лечения, которое они получали.

Но, быть может, простого случайного распределения недостаточно? Если исследователи будут знать, к какой группе принадлежат какие пациенты, то даже при случайном распределении у них может возникнуть соблазн манипулировать данными, в том числе и неосознанный. Они могут по-человечески пожалеть пациентов, получающих неактивное плацебо, и начать больше заботиться о них. Или более строго интерпретировать критерии для исключения из исследования пациента с побочными эффектами, если будут знать, что он получает какое-то конкретное лечение.

Этого риска можно избежать, если скрыть идентичность групп, к которым относятся пациенты, так, чтобы ни пациенты, ни лечащие врачи не знали, кто какое лечение получает. Такое сокрытие групповых меток называется слепым, поскольку делает их невидимыми в буквальном смысле.

Например, при сравнительном испытании двух лекарств каждому из них можно присвоить разные коды, при этом врачи не должны знать, какому лекарству какой код соответствует. Если снабдить лекарства одинаковой упаковкой, так, чтобы внешне она отличалась только нанесенным на нее кодом, врачи не смогут узнать, какое лечение они применяли, и потому будут лишены возможности сознательно или подсознательно относиться более внимательно к пациентам, получающим конкретное лекарство. То же самое относится и к специалистам по анализу данных, которые могут видеть код, соотносящий конкретного пациента с конкретным лечением, но не дающий информации, какое именно лечение маркировано тем или иным кодом.

Код, определяющий лечение для каждого пациента, должен раскрываться только после завершения исследования и анализа данных, и лишь тогда станет понятно, какой метод лечения более эффективен. (Всегда следует предусматривать возможность для раскрытия кода на тот случай, если в ходе исследования у пациентов возникнут серьезные побочные эффекты.)

Что могло бы быть

Итак, фундаментальная идея, лежащая в основе рандомизированных клинических исследований, заключается в использовании темных данных при распределении людей по группам. Это позволяет нам исследовать контрфактуальность того, что могло бы произойти. Альтернативной стратегией исследования того, что могло бы произойти, является симуляция. При симуляции мы создаем модель механизма, системы или процесса и генерируем в этой модели синтетические данные, чтобы посмотреть, как механизм, система или процесс поведут себя в различных условиях, а возможно, и в разное время. Данные, которые мы генерируем, не являются темными в смысле отсутствия значений. Но их можно отнести к темным данным в другом смысле: их значения не наблюдались, но могли бы наблюдаться при других обстоятельствах. К таким данным относятся, например, доход супруга того, кто не состоит в браке, время смерти от рака у неизлечимого ракового больного, который умер от чего-то другого, или случайная ошибка измерения, принимающая разные значения.

Симуляция является чрезвычайно мощным инструментом, который в настоящее время используется во множестве областей: от финансовых систем и политики в сфере ядерного вооружения до влияния на экологию и исследований человеческого поведения. Некоторые философы науки даже описывают симуляцию как новый метод научного познания. Но знакомство с предметом мы начнем, как обычно, с пары простых примеров.

В своей книге «Голый хирург» (The Naked Surgeon) Самер Нашеф описывает пример симуляции в области медицины. Провести исследование Нашефа подтолкнул случай Гарольда Шипмана — самого плодовитого серийного убийцы Великобритании всех времен. Шипман был семейным врачом, осужденным за убийство 15 своих пациентов, но, как полагают, за 25-летнюю практику он убил более 250 человек. Нашеф захотел узнать, может ли что-нибудь подобное произойти в больницах Государственной службы здравоохранения, находящихся под пристальным наблюдением всевозможных структур. Чтобы проверить эту идею, он взял реальную отчетность двух своих коллег и случайным образом подставил вместо некоторых успешных результатов лечения неудачные. При этом он увеличил скорость, с которой пациенты как бы умирали, приблизив ее к средней скорости смерти жертв Шипмана. Иначе говоря, он генерировал темные данные, чтобы показать, что могло бы произойти, если бы такой человек, как Шипман, находился на свободе и работал в больнице Государственной службы здравоохранения. Исследование Нашефа наглядно демонстрирует силу симуляции: «Результаты эксперимента можно назвать выдающимися… Гарольд Шипман оставался незамеченным в течение 25 лет… В нашем эксперименте доктор Джон, условный злодей и анестезиолог, был обнаружен через 10 месяцев, а его коллега доктор Стив, хирург, и того быстрее — в течение восьми месяцев».

Возможно, вам знакомо применение симуляции в таких программных продуктах, как симуляторы полета. Они используются для обучения пилотов, чтобы те могли отрабатывать действия в экстремальных и непредвиденных ситуациях без риска падения реального самолета. Эти искусственно созданные условия точно так же представляют собой данные, которые могли бы возникнуть.

Чтобы лучше понять саму идею симуляции, давайте рассмотрим ее с точки зрения математики, а точнее, поведения подброшенной монеты.

Используя элементарную статистику, я могу вычислить вероятность того, что честная монета, подброшенная 10 раз, упадет орлом вверх менее пяти раз: она будет равняться вероятности того, что орел выпадет четыре раза, плюс вероятность того, что он выпадет три раза… и так до вероятности, что орел вообще не выпадет ни разу. Эта общая суммарная вероятность составит 0,377. И все бы хорошо, но для выполнения таких вычислений требуется знать основы биномиального распределения. Однако существует альтернативный способ оценки требуемой вероятности. Мы могли бы подбросить монету 10 раз и подсчитать, сколько раз выпал орел. Правда, одного такого цикла будет явно недостаточно — орел просто выпадет либо больше пяти раз, либо меньше, но это никак не поможет нам узнать вероятность того, что орел выпадет менее пяти раз. Нам потребуется повторить цикл подбрасывания монеты множество раз, чтобы увидеть, какая доля этих циклов дает выпадение менее пяти орлов. Чем больше раз мы повторим цикл, тем более точную оценку мы получим — закон больших чисел, упомянутый в главе 2, прямо говорит об этом. Но такой процесс вскоре может стать довольно утомительным, поэтому вместо того, чтобы тратить свою жизнь на столь бессмысленное занятие, лучше запустить компьютерную симуляцию, в которой случайным образом будут генерироваться 10 значений, каждое из которых равно либо 0, либо 1 (это наши орлы и решки) с вероятностью «выпадения» 1/2. Проделав это снова, и снова, и снова…, мы сможем узнать, какова вероятность выпадения менее пяти орлов.

Я запускал эту симуляцию миллион раз. Доля тех из них, в которых орел выпал менее пяти раз, составляла 0,376, что недалеко от истинного значения вероятности. И обратите внимание на слово «миллион» — симуляция как метод стала по-настоящему возможной лишь с появлением современных компьютеров.

Это, конечно, простейший пример — во-первых, я мог запустить симуляцию на своем ноутбуке, а во-вторых, я знал правильный ответ. Но есть куда более сложные симуляции, например погоды и климата, созданные на основе обширных наборов данных и с применением самых мощных на сегодняшний день компьютеров. В этих симуляциях используются чрезвычайно сложные модели взаимосвязанных процессов, влияющих на климат: атмосферных потоков, океанских течений, солнечного излучения, биологических систем, вулканической активности, загрязнения окружающей среды и прочих воздействий. Реактивный характер таких систем означает, что им присущи специфические проблемы: толкните мяч, и он покатится от вас в направлении приложения силы, но «толкните» сложную систему, и она среагирует неожиданным, а зачастую просто непредсказуемым образом. Понятие хаоса в научном смысле, как, например, в теории хаоса, хорошо соотносится с фундаментальной непредсказуемостью метеорологических систем. Уравнения, описывающие такую сложность, часто не могут быть решены в принципе — получить четкие ответы мешает содержащаяся в них неопределенность. В этом случае на помощь приходит симуляция, которая, многократно генерируя данные из моделей, показывает, как могут вести себя погода и климат. Результаты этих симуляций дают нам представление о диапазоне возможного поведения систем, например о том, как часто будут возникать экстремальные явления, такие как наводнения, ураганы и засухи. Каждый прогон такой симуляции позволяет получить данные, которые могли бы возникнуть, но которые мы на самом деле не наблюдали, и потому они являются темными.

В экономике и финансах используется тот же подход. Современные экономические модели по понятным причинам довольно сложны. Общество состоит из миллионов людей, которые взаимодействуют друг с другом, перемещаются каждый по своему маршруту, организованы в самые разные социальные структуры и подвергаются воздействию внешних сил. Написание и решение математических уравнений, которые позволили бы увидеть, как такие системы должны меняться с течением времени, весьма проблематично. Симуляции на основе сгенерированных данных, которые только могли бы возникнуть, позволяют нам исследовать, как общество будет развиваться в тех или иных условиях, как люди будут реагировать на глобальные изменения, такие как введение торговых тарифов, войны, неблагоприятные погодные условия и т.д.

Более утонченное применение метод симуляции находит в современном анализе данных. В частности, так называемая байесовская статистика, описанная далее в этой главе, часто приводит к очень сложным и трудноразрешимым математическим уравнениям. Поиск решения таких уравнений затруднен или попросту невозможен, но на основе симуляции были разработаны альтернативные методы. Так же, как в примере с прогнозированием климата, мы берем уравнения в качестве модели и генерируем данные, которые могли бы возникнуть, если бы эта модель была верной. Затем мы точно так же повторяем это раз за разом, чтобы сгенерировать множественные наборы данных, каждый из которых мог бы возникнуть в реальности. После этого мы суммируем множественные наборы данных, что позволяет вычислять средние значения, диапазоны вариаций или любую другую описательную статистику, которая нам нужна. По сути, мы видим то, какими характеристиками могут обладать результаты и какова вероятность их появления. Методы симуляции превратили байесовскую статистику из интересной теоретической идеи в практический и очень полезный инструмент, который лег в основу машинного обучения и искусственного интеллекта.

Однако важно помнить, что по определению симулированные данные поступают из гипотетической модели. Они являются темными данными (DD-тип 14: фальшивые и синтетические данные), которые возникают не в результате реального процесса. Очевидно, что если модель неверна, если она плохо отображает реальность, то мы рискуем получить искаженное представление о том, что могло бы произойти. Здесь работает то же правило, что и везде: если у вас нет глубокого понимания вопроса, вы легко можете сбиться с пути.

Репликация данных

Из этой книги вы уже знаете, как часто мы хотим оценить то, чего не было, или то, что не можем наблюдать непосредственно. Например, мы пытаемся диагностировать заболевание, основываясь исключительно на симптомах; или прогнозировать число пассажиров нью-йоркского метро в следующем году, исходя из того, сколько человек совершило поездку в этом; или понять, на что будет походить национальная экономика через десятилетие; или предсказать, какой потенциальный заемщик допустит дефолт по кредиту, какой студент преуспеет на курсе, какой соискатель будет более эффективно выполнять работу.

Общей особенностью этих ситуаций является то, что в нашем распоряжении есть данные, описывающие ряд предыдущих случаев (людей, у которых были заболевания, пассажиропоток прошлых лет или поведение реальных заемщиков). И для каждого из этих случаев мы знаем исход (какое именно заболевание, сколько пассажиров, количество дефолтов), а также описательные характеристики (симптомы, повторяющиеся маршруты, информация из формы заявки). Мы можем использовать эти исторические данные для моделирования взаимосвязи между описательными характеристиками и исходом. Такая модель позволит прогнозировать исходы для других случаев исключительно на основе их описательных характеристик.

Эта базовая структура — совокупность прошлых наблюдений, дающая нам и характеристики, и исходы, которую мы используем для построения модели, связывающей характеристики с результатом, чтобы в дальнейшем предсказывать новые исходы — распространена повсеместно. Подобные модели часто называют прогностическими, хотя «прогноз», возвращаясь к нашим примерам, может быть связан с неизвестным диагнозом, а вовсе не обязательно с будущим пассажиропотоком. Будучи исключительно популярными, прогностические модели стали предметом огромного числа исследований. На сегодня разработано множество методов построения таких моделей с широким спектром специфических свойств, и можно выбрать наилучший, соответствующий конкретной задаче.

Но какое отношение все это имеет к темным данным? Мы проиллюстрируем это на очень простом примере и базовом прогностическом методе. Задача: спрогнозировать доход, исходя только из одной переменной — возраста. Чтобы построить возможную модель, мы соберем данные о парах значений «возраст/доход» на основе выборки. Самым простым методом будет прогнозирование дохода нового человека, возраст которого нам известен, используя значение дохода других людей того же возраста. Так, если мы хотим предсказать доход кого-то в возрасте 26 лет и в нашей выборке есть один человек такого возраста, то в простейшем случае мы используем его доход в качестве нашего прогноза. Если же в нашей выборке есть и другие 26-летние, мы используем данные каждого из них, чтобы рассчитать средний доход. В более общем смысле средние значения обеспечат лучший прогноз, поскольку они менее подвержены случайным колебаниям. Это означает, что было бы разумно включить также доходы 25-летних и 27-летних, поскольку они, вероятно, будут близки к доходам 26-летних, а их включение увеличит размер выборки. Аналогичным образом мы могли бы включить тех, кому 24 года и 28 лет и т.д., но при этом придавать меньший вес их значениям по мере удаления от 26. Эта стратегия позволила бы нам сделать прогноз, даже если в выборке нет ни одного человека в возрасте 26 лет.

Чтобы понять, как это связано с темными данными, давайте посмотрим на то же исследование под другим углом. Стараясь спрогнозировать доход человека в возрасте 26 лет, по сути, мы создаем новый набор данных путем случайной репликации значений в существующей выборке. Мы делаем много копий 26-летних, чуть меньше копий тех, кому 25 и 27 лет, еще меньше — тех, кому 24 и 28, и т.д. Как будто у нас изначально была гораздо более широкая выборка, основную часть которой мы по какой-то причине просто не видели. Усреднение доходов по всем реплицированным даст соответствующую оценку доходов людей в возрасте 26 лет.

Этот пример нагляден, но в реальной жизни обычно все несколько сложнее. Как правило, вместо одной описательной характеристики, такой как возраст в нашем примере, мы будем иметь дело с несколькими или даже с множеством характеристик. Например, мы можем охарактеризовать пациентов по их возрасту, росту, весу, полу, систолическому и диастолическому артериальному давлению, пульсу в состоянии покоя, а также по ряду симптомов и результатов медицинских тестов, чтобы оценить вероятность выздоровления нового пациента с определенным набором значений. Как и в предыдущем примере мы создадим новый набор данных, реплицирующий людей таким образом, что у нас будет больше копий тех, кто имеет характеристики, очень схожие с характеристиками интересующего нас человека, и чем меньше будет это сходство, тем меньше будет и число копий. Люди, которые полностью отличаются по всем характеристикам от нашего пациента, могут не воспроизводиться вовсе. После того, как собраны все реплицированные данные, мы просто вычисляем долю тех, кто выздоровел, и принимаем это значение за предполагаемую вероятность выздоровления.

Эта базовая идея стратегической репликации данных в случаях, когда требуется получить намного больший и, соответственно, более релевантный набор данных, используется и иным образом. В целях упрощения мы рассмотрим алгоритмы машинного обучения для распределения объектов по классам, как в предыдущем диагностическом примере или как в случае вопроса о том, может ли подавший заявку на ипотеку допустить дефолт по платежам (то есть принадлежать одному из двух классов: «да» или «нет»). Но теперь мы рассмотрим идеи, которые используются для повышения эффективности таких алгоритмов.

Как правило, алгоритмы для создания подобных диагностических классификаций могут ошибаться: симптомы часто бывают неоднозначными, а у молодого кандидата на ипотеку может быть очень короткая история финансовых транзакций. Один из способов улучшить такой алгоритм состоит в том, чтобы изучить случаи, которые он ранее неверно классифицировал, и посмотреть, сможем ли мы каким-то образом изменить или скорректировать его, чтобы прогнозы стали точнее. Метод, который позволяет сделать это, — создание искусственных данных по следующей схеме. Мы начинаем с определения пациентов или кандидатов, по которым был сделан неправильный прогноз, и добавляем к данным дополнительные копии этих случаев, возможно, огромное число дополнительных копий. Теперь, когда мы настроим параметры нашей модели для классификации этого расширенного набора данных, она будет вынуждена уделять больше внимания случаям, в которых ранее ошибалась. Чтобы лучше понять это, представьте себе экстремальную ситуацию, в которой ранее неверно классифицированный случай был реплицирован 99 раз и теперь существует 100 абсолютно идентичных его копий. Ранее наша классификация выдавала только один ошибочный случай, что было незначительным, но теперь этих случаев стало в 100 раз больше. Эффективность метода классификации значительно улучшится, если у нас получится настроить его так, чтобы он мог теперь правильно оценивать этот случай (и его 99 копий).

Иначе говоря, изменение алгоритма путем применения его к этому новому набору данных — (где исходные данные дополнены большим количеством ошибочно классифицированных копий — позволяет получить новую версию алгоритма, которая будет точнее классифицировать те данные, где ранее допускалась ошибка. Идея состоит в том, чтобы создавать искусственные данные, смещающие «внимание» алгоритма в нужном направлении. Или, по-другому, использовать данные, которые могли бы быть.

Процедура, основанная на этой идее, называется бустингом, или усилением. Когда-то она была революционной, но сегодня широко используется в машинном обучении. На момент написания книги версии алгоритмов бустинга являются лидерами в соревнованиях по машинному обучению, проводимых такими организациями, как Kaggle (например, особенно хорошо показывает себя версия алгоритма, называемая экстремальный градиентный бустинг.)

В то время как бустинг сосредоточен на тех случаях, которые ранее были неверно классифицированы и требуют дополнительного внимания, для определения точности оценок был разработан другой подход к использованию искусственных наборов данных. Речь идет о методе бутстреппинга, изобретенном американским статистиком Брэдом Эфроном. (Надо признать, статистики и специалисты по машинному обучению неплохо поднаторели в придумывании ярких имен, раскрывающих суть концепций.)

Бутстреппинг работает следующим образом. Часто нашей целью является составление общего сводного отчета по некоторой совокупности чисел (скажем, нам может потребоваться среднее значение), но иногда невозможно определить каждое отдельно взятое число. Например, нам нужно узнать средний возраст людей в стране, но людей в стране слишком много, чтобы мы могли опросить их всех. Как мы уже видели ранее, часто само понятие всеохватывающего измерения бессмысленно — мы не можем, к примеру, многократно измерять массу добываемой руды, так как смысл ее добычи в переработке. Решение заключается в том, чтобы сформировать выборку — просто спросить некоторых людей об их возрасте или взвесить несколько партий добытой руды, — а затем использовать среднее значение этой выборки в качестве нашей оценки.

Средние показатели выборки безусловно полезны — они дают нам общее представление о значении, но было бы неразумным ожидать, что они окажутся абсолютно точными. В конце концов, если мы возьмем другую выборку данных, то, вероятно, получим иной результат. Можно, конечно, ожидать, что он не будет слишком отличаться от первого, но рассчитывать на их идентичность не стоит. Это означает, что кроме среднего значения хотелось бы получить оценку степени его точности. Хотелось бы знать, насколько велик разброс средних значений, которые мы получим, сформировав разные выборки, и насколько далеки от истинного значения наши средние показатели выборки.

Чтобы найти показатель дисперсии для средних значений, достаточно использовать несложную статистическую теорию. Однако для других описаний и сводок данных это будет куда сложнее, особенно если наши вычисления выходят далеко за рамки простого определения среднего. Но и здесь синтетические темные данные могут снова прийти нам на помощь.

Если бы мы могли сформировать много выборок (например, как в случае с десятикратным подбрасыванием монеты), проблемы бы не возникло: мы бы просто сделали это, привели нашу модель в соответствие с каждой выборкой и посмотрели бы, насколько различаются результаты. Но, к сожалению, у нас есть только одна выборка.

Идея Брэда Эфрона заключалась в том, чтобы принять единственную имеющуюся у нас выборку за всю совокупность. Затем, продолжая идею извлечения выборки из совокупности, мы могли бы извлечь подвыборку из нашей выборки (каждая подвыборка должна иметь тот же размер, что и исходная выборка, благодаря многократному включению в нее каждого значения). Фактически точно так же, как мы могли бы извлечь много выборок из генеральной совокупности, мы можем извлечь много подвыборок из одной имеющейся у нас выборки. Принципиальная разница состоит в том, что мы действительно можем сформировать такие подвыборки. К каждой из них можно применить соответствующую модель, например оценить среднее значение, а затем посмотреть, насколько сильно различаются эти значения. Базовая идея состоит в том, чтобы смоделировать взаимосвязь между всей совокупностью и фактической имеющейся выборкой с помощью вычисления отношений между выборкой и подвыборкой. Это как если бы мы создавали искусственные копии выборки, раскрывая большое количество данных, которые до сих пор было скрыто. Понятие «бутстреппинг» означает переход от выборки к подвыборке точно так же, как мы перемещаемся от генеральной совокупности к выборке.

Из этих примеров становится очевидной одна вещь: использование искусственных данных для облегчения прогнозирования — задача весьма трудоемкая. Создание копий соседних значений, репликация случаев ошибочной классификации, формирование нескольких (зачастую сотен и более) подвыборок данных исключают несерьезный подход. Или как минимум возможность проделать все это вручную. К счастью, мы живем в мире компьютеров. Они просто созданы для проведения повторяющихся вычислений за доли секунды. Вспомните миллион циклов, в каждом из которых было 10 бросков монеты. Методы создания темных данных для использования их в наших интересах, описанные здесь, во многом являются детищем компьютерного века. Выше я употребил слово «революционный» — это не преувеличение.

Мнимые данные: байесовское априорное распределение

При рассмотрении симулирования мы предполагали, что правильно понимаем базовую структуру, процесс и механизм возникновения данных. Такая уверенность часто неоправданна. Мы можем иметь некоторое представление о процессе, но нам должно очень повезти, чтобы действительно знать все в деталях. Как минимум нам сложно быть уверенными в точных значениях чисел, характеризующих структуру.

Например, я мог бы предположить, что рост британских мужчин соответствует так называемому нормальному распределению, при этом большинство из них имеют средний рост и лишь немногие отличаются очень высоким или очень низким ростом. Однако такое предположение не дает понимания, каков именно этот средний показатель. Я могу быть уверен в том, что он меньше 1,85 м, более уверен в том, что он меньше 1,9 м, еще более уверен в том, что он меньше 1,95 м и абсолютно уверен в том, что средний рост меньше 2 м. Точно так же я могу быть уверен в том, что это значение больше 1,7 м, чуть более уверен, что оно больше 1,65 м, и абсолютно уверен, что оно превосходит 1,5 м. То, что я описываю здесь, — это распределение моих представлений о вероятном значении среднего роста; оно показывает, насколько я убежден, что средний рост находится в том или ином диапазоне.

Сложно сказать, откуда именно взялось такое распределение. Скорее всего, это сочетание опыта личных встреч с людьми разного роста, расплывчатых сведений из исследований на эту тему, о которых я некогда читал, смутных воспоминаний о том, что кто-то когда-то говорил мне об этом. В любом случае это эквивалентно некоему набору данных, которые я не могу зафиксировать, по крайней мере полностью, и установить их значения. Проще говоря, эти данные — темные.

Учитывая фундаментальную субъективность и неопределенность причин наших представлений о среднем росте населения, вполне понятна неуверенность, которая может у нас возникнуть в отношении того, стоит ли что-то утверждать или принимать решения на основании собственного мнения по этому вопросу. Вместо этого следует собрать данные, чтобы добиться большей объективности. И это именно то, для чего нужен байесовский подход к статистике. В соответствии с ним следует взять наши первоначальные мнения о возможных значениях среднего роста, называемые априорными убеждениями, а затем корректировать их по мере поступления новых реальных данных, что приводит к появлению апостериорных убеждений. Мы могли бы, например, измерить рост 100 случайно выбранных британцев, а затем использовать эти 100 значений, чтобы скорректировать или обновить наше первоначальное представление о среднем росте населения. Результатом будет новое распределение возможных значений среднего роста, которое будет представлять собой смещение первоначального распределения наших мнений в сторону наблюдаемых фактических значений. Если взять действительно большую выборку, то ее вес в определении среднего значения будет настолько велик, что влияние нашего первоначального представления окажется ничтожным. Этот процесс обновления или корректировки выполняется с использованием фундаментальной теоремы Байеса. С нашей точки зрения, теорема Байеса объединяет ненаблюдаемые темные данные с реально наблюдаемыми, чтобы получить новое распределение мнений о вероятном среднем росте. (Ладно, так и быть, скажу: Национальная статистическая служба Великобритании сообщает, что средний рост британских мужчин 1,75 м.)

Вот другой пример. Ученые пытались определить скорость света еще в XVII в.: в 1638 г. Галилей установил, что она по меньшей мере в 10 раз превышает скорость звука; в 1728 г. Джеймс Брэдли назвал значение 301 000 км/с, а в 1862 г. Леон Фуко скорректировал его до 299 796 км/с. Мы можем суммировать эти и другие оценки, чтобы получить распределение мнений относительно возможных значений. Подробные результаты экспериментов могут быть утеряны — стать темными данными, но распределение мнений будет содержать соответствующую информацию. В конце XIX в. канадский астроном и математик Саймон Ньюком (тот самый, с которым мы уже встречались, говоря о распределении Бенфорда) провел дальнейшие эксперименты. В 1891 г. он опубликовал свои измерения, сделанные между 24 июля 1882 г. и 5 сентября 1882 г., в альманахе Astronomical Papers, издаваемом Американским офисом Морского альманаха. Подробные измерения Ньюкома стали доступны для объединения с темными данными, скрытыми в распределении мнений на основе более ранних экспериментов, что улучшило это распределение. К слову сказать, на сегодняшний день наиболее точная оценка скорости света, которую мы имеем, составляет 299 792,458 км/с в вакууме.

Байесовская статистика играет чрезвычайно важную роль — это одна из двух (или по другой версии трех) основных школ статистического анализа.

Частная жизнь и защита конфиденциальности

До этого момента мы старались взглянуть на существующие статистические процедуры и принципы работы с наблюдаемыми данными с точки зрения темных данных. Такая смена перспективы нередко приводит к новому пониманию. Но есть и другие способы использования темных данных. На самом деле, как мы сейчас увидим, сокрытие данных является центральным элементом эффективного функционирования современного общества: многие из наших обычных повседневных действий были бы просто невозможны без сокрытия данных.

В главах 6 и 7 мы говорили о том, как мошенники скрывают информацию. Их цель — создать искаженное впечатление о происходящем: заставить вас поверить, что вам будет выгодна транзакция, тогда как на самом деле вы на ней потеряете, или скрыть правду о результатах эксперимента. Шпионы делают то же самое. Их настоящая цель, личность и, конечно же, реальное поведение скрыты от государств и корпораций. Шпионы не хотят, чтобы противник узнал об их замыслах, поэтому они стараются скрыть свою деятельность. В то же время шпионы пытаются добыть и передать своему руководству данные, которые противная сторона пытается сохранить в секрете. Но у всего есть обратная сторона и более высокий уровень осмысления, а уж тем более у шпионажа. Так, утечка определенных данных может быть выгодна государству, чтобы противник узнал ответы на свои вопросы и успокоился. В этот момент на сцене появляются двойные и тройные агенты, и наступает полная неразбериха, что от кого скрыто. Все моментально становится очень сложным!

Но мошенники и шпионы не единственные, кто все время что-нибудь да скрывает. Подумайте: возможно, вы сами не заинтересованы в том, чтобы ваша медицинская или финансовая история стала достоянием общественности. Вас может смутить, если некоторые аспекты вашей жизни станут общеизвестными. В этом суть частной жизни, и статья 12 Всеобщей декларации прав человека не зря начинается следующими словами: «Никто не может подвергаться произвольному вмешательству в его личную и семейную жизнь…»

Есть разные определения частной жизни. Это и право на уединение, и право на защиту от вмешательства государства, и возможность избирательно раскрывать себя миру. Все эти определения прекрасны, но они носят слишком общий характер, ведь конфиденциальность и сокрытие данных — вещи вполне конкретные. Вы используете секретные пароли для защиты своего банковского счета, учетных записей в социальных сетях, доступа к телефону, ноутбуку и т.д. Это означает как минимум две вещи: во-первых, ваши данные защищены от тех, от кого вы сами хотите их защитить, и, во-вторых, крайне важно уметь создать хороший пароль.

Вы не поверите, но даже сейчас многие используют в качестве паролей по умолчанию такие последовательности, как password, 123456 и admin. (Самое время вспомнить анекдот с бородой про человека, который изменил все свои пароли на «неверный», чтобы система, когда он забудет их, сама подсказала: «Пароль неверный».) Это часто предустановленные на устройствах пароли, которые, по сути, являются тестовыми и должны прекращать свое существование после продажи носителя. Хакеры обычно начинают с просмотра именно этих паролей по умолчанию. Более общая базовая стратегия взлома паролей состоит в том, чтобы просто попробовать миллиарды различных комбинаций символов, что при наличии мощного компьютера может быть выполнено со скоростью полмиллиона комбинаций в секунду (здесь становится понятным, что прогон миллиона симуляций подбрасывания монеты занял у меня считаные секунды). Если у хакера есть хоть какая-то информация о вашем пароле (например, что он состоит только из цифр), то это значительно ускоряет поиск. Вот почему рекомендуется использовать в пароле буквы в обоих регистрах, а также цифры и специальные символы. Это значительно увеличивает словарь символов и создает намного больше возможных вариантов, которые хакер должен испробовать. 10 возможных цифр и пароль длиной восемь символов создают 108 вариантов, или 100 млн возможных паролей. Тестирование их со скоростью полмиллиона в секунду означает, что пароль может быть взломан максимум за 200 секунд, или три с небольшим минуты. В то же время, используя 10 цифр, 26 букв английского алфавита в обоих регистрах, а также, скажем, 12 специальных символов, вы увеличиваете число возможных паролей длиной восемь символов до 748, что составляет около 9 × 1014. При скорости полмиллиона комбинаций в секунду на их прохождение потребуется около 28,5 млн лет. Можно спокойно вздохнуть!

Шпионаж и пароли тесно связаны с секретными кодами и криптографией. Это инструменты для обмена информацией между двумя людьми, которые не позволяют посторонним понимать ее и оставляют их в неведении. На самом деле шифрование используется не только в сфере шпионажа. Например, коммерческие организации часто обмениваются конфиденциальной информацией, банки должны точно знать, что никто не перехватит их сообщения и не перенаправит транзакции, да и вы сами должны быть уверены, что ваша электронная корреспонденция будет прочитана только целевыми получателями и никто не сможет взломать систему обмена информацией.

Криптография, или наука шифрования, стала передовой математической дисциплиной. Ее современные методы часто основаны на шифровании с открытым ключом. Это элегантное математическое решение, в котором используются два числовых ключа, один из которых позволяет людям шифровать сообщения, а другой — расшифровывать их. Первый ключ может быть обнародован, поэтому закодировать сообщение может любой, а вот второй остается в секрете, и только тот, кто имеет к нему доступ, может декодировать сообщения.

Общественные, социальные и этические проблемы, связанные с криптографией, могут быть очень серьезными. С одной стороны, шифрование обеспечивает безопасность законных транзакций, но с другой — оно используется и для защиты незаконных транзакций криминального или террористического характера. Apple Inc. получила ряд запросов от судов США с требованием раскрыть информацию на заблокированных iPhone. В одном случае ФБР попросило Apple разблокировать телефон, принадлежащий одному из преступников, устроивших теракт в Сан-Бернардино, штат Калифорния, в декабре 2015 г., в результате которого погибли 14 человек. Но такой запрос ставит нас перед серьезной проблемой: в какой степени личная конфиденциальность должна быть священной. В этом конкретном случае Apple отказалась выполнять запрос, было назначено слушание, но до того, как оно состоялось, ФБР нашло некое третье лицо, которое имело доступ к телефону и разблокировало его. Запрос был отозван, но история о конфиденциальности, секретности и доступе к темным данным на мобильных телефонах далека от своего завершения.

Национальные статистические службы являются государственными органами, которые собирают и сопоставляют данные по всему населению страны, а затем анализируют с целью разработки на их основе эффективной социальной и государственной политики. Такие органы должны хранить личные данные в секрете, допуская публикацию лишь статистических сводок. Например, вы ожидаете, что национальная статистическая служба вашей страны не будет разглашать размер вашей зарплаты или историю болезни, сообщая только о распределении зарплат и количестве людей, у которых диагностированы те или иные заболевания. Такая политика может привести к деликатным проблемам конфиденциальности. В частности, если выдается информация об относительно небольшой группе людей, возможно, окажется несложным идентифицировать лиц в этой группе. Например, публикация информации о мужчинах в возрасте от 50 до 55 лет с указанием почтового индекса, в зоне которого они проживают, может существенно сузить поиск. В самом худшем случае может быть всего один человек, который отвечает всем условиям, определяющим группу.

Из-за этих и подобных им деликатных вопросов национальные статистические службы и другие органы государственной власти разработали инструменты для сохранения данных в темноте, чтобы можно было распространять информацию о населении без нанесения ущерба конфиденциальности отдельно взятого человека. Например, если перекрестная классификация критериев выдает небольшой список людей (скажем, тех, кто живет в определенном городе и зарабатывает более £1 млн в год), то эту ячейку перекрестной классификации можно объединить с соседними ячейками (с теми, кто живет в близлежащих городах или зарабатывает более £100 000 в год).

Другая стратегия, которую используют статистические службы для сокрытия данных, состоит в их искажении случайным образом. Например, небольшое число, выбранное случайным образом, может добавляться к каждому значению таблицы так, чтобы ее можно было опубликовать без разглашения точных чисел, но сохранить общую картину. Существуют способы сохранения требуемых аспектов (например, общих средних значений, распределений чисел в разных группах) точными, хотя все составляющие совокупность числа изменяются.

Третья стратегия — моделирование распределения и характеристик истинных данных с последующим использованием модели для генерации синтетических данных с теми же свойствами, подобно тому, как это происходит при симуляции. Например, мы можем рассчитать средний возраст и разброс по возрастам в популяции, а также общую структуру распределения по возрасту, а затем сгенерировать искусственные данные, которые имеют точно такую же структуру среднего, разброса и распределения. Таким образом, реальные данные полностью заменяются, но (до определенного момента) сводки, сгенерированные из синтетических данных, совпадают с реальными.

Данные можно также анонимизировать. Это означает, что информация, которая служит для идентификации людей, уничтожается. Например, из записей удаляются имена, адреса и номера социального страхования. Недостатком анонимизации является то, что потенциал повторной идентификации, позволяющей установить, кому принадлежит конкретная запись, начисто теряется. Так, в записях клинических испытаний анонимность может быть сохранена путем удаления имен и адресов, но если позднее обнаруживается, что некоторые пациенты подвергаются серьезному риску, то возникает необходимость вновь идентифицировать их. Кроме того, для многих организаций ведение записей, позволяющих идентифицировать людей, имеет решающее значение для деятельности.

В таких случаях можно использовать так называемую псевдонимизацию. Вместо того, чтобы просто уничтожать идентифицирующую информацию, ее заменяют кодом. Например, имена могут быть заменены случайно выбранным целым числом (замена имени Джеймс Бонд на число 007 не будет случайной, а вот имени Дэвид Хэнд на число 665347 — вполне). Если где-то хранится файл, который сопоставляет идентификаторы с кодами, то в случае необходимости всегда может быть найдена личность носителя кода.

Формальные определения анонимизации, используемые статистическими службами, обычно содержат пункт, в котором говорится, что процесс анонимизации должен «защищать людей от повторной идентификации любыми разумными средствами». Выражение «разумные средства» возникает здесь оттого, что идеальная анонимность редко может быть гарантирована, поскольку одни наборы данных могут быть связаны с другими. В главе 3 мы уже видели, что связывание наборов данных имеет огромный потенциал для улучшения жизни людей. Например, связь моделей закупки продуктов питания с данными о здоровье даст ценную для профилактики болезней информацию. Связывание данных о школьном образовании с данными по занятости и доходам из налоговых органов предоставит чрезвычайно полезную информацию для разработки государственной политики. Подобное связывание наборов данных не является чем-то гипотетическим, оно уже проводится широким кругом организаций по всему миру. Но подобные проекты могут быть успешными только в том случае, если люди, данные которых включены в базы данных, будут уверены, что их частная жизнь и конфиденциальность не нарушены. Британская сеть исследования административных данных (ADRN) преодолела риски конфиденциальности, используя метод «доверенной третьей стороны» для связывания данных. Этот метод означает, что ни один конкретный владелец данных не имеет ни идентификаторов, ни связанных данных. Для двух наборов данных система работает следующим образом:

Каждый менеджер баз данных создает уникальные идентификаторы для каждой записи в своем наборе данных.
Эти идентификаторы и связанная с ними идентифицирующая информация (например, имена) отправляются «доверенной третьей стороне» по защищенным ссылкам, каждая из которых соответствует конкретному идентификатору.
Для каждой записи создается связывающий идентификатор.
Файлы, содержащие связывающий идентификатор и уникальные идентификаторы для каждой записи, отправляются обратно владельцам базы данных.
Владельцы базы данных добавляют связывающий идентификатор к записям в своем наборе данных.
Наконец, каждый владелец базы данных извлекает идентификационную информацию (например, имена) и отправляет записи и их связывающие идентификаторы исследователю, который может связывать наборы данных, используя связывающий идентификатор, не зная самих идентификационных данных.

Этот процесс кажется несколько сложным, но на деле он очень эффективен для сокрытия идентификаторов при связывании записей из двух наборов данных. Хотя такие проекты по связыванию данных могут быть чрезвычайно ценными для общества, они всегда несут риски нежелательной идентификации, которые могут быть значительно увеличены, если данные будут связаны с внешними наборами данных. (Это было невозможно в случае ADRN, поскольку весь анализ проводился в защищенных средах без доступа к другим источникам данных.) Эта дилемма хорошо иллюстрируется одним известным случаем.

В 1997 г. Комиссия по страхованию штата Массачусетс (GIC) опубликовала больничные данные для исследователей, чтобы они могли разработать улучшенные стратегии здравоохранения. Тогдашний губернатор Массачусетса Уильям Уэлд заверил жителей штата в том, что их конфиденциальность защищена, заявив, что GIC удалила личные идентификаторы из данных.

Возможность связывания данных, однако, не была рассмотрена. Латания Суини была в то время аспирантом в Массачусетском технологическом институте, где занималась «вычислительным контролем идентификации» — отраслью информатики, связанной с инструментами и методами сохранения данных в темноте. Суини задалась вопросом, возможно ли, вопреки утверждению Уэлда, идентифицировать людей по данным GIC. В частности, она решила поискать данные самого Уэлда. Общеизвестно, что Уэлд живет в Кеймбридже, штат Массачусетс, в котором всего семь почтовых индексов и 54 000 жителей. Суини сопоставила эту информацию с данными в избирательном бюллетене, которые можно было купить всего за $20. Затем, используя другую общедоступную информацию об Уэлде — дату его рождения, пол и т.д., она смогла сопоставить ее с больничными записями и таким образом идентифицировать медицинскую запись Уэлда. В довершение всего Суини послала ему копии найденных записей.

Конечно, в этом деле присутствует фактор уникальности. Любой набор данных может включать данные известных лиц, которые в некотором смысле являются аномальными и допускают простую идентификацию, но это не означает, что большинство людей могут быть так же легко идентифицированы. В нашем примере Уэлд был публичной фигурой, и о нем было много чего известно. Кроме того, его повторная идентификация зависела от точности информации в избирательном бюллетене. Дэниел Барт-Джонс детально изучил этот случай и показал его исключительность. Тем не менее это событие вызвало определенную тревогу на правительственном уровне и недавние изменения в законодательстве затруднили такую повторную идентификацию.

Другой известный случай касается данных веб-поиска, открыто опубликованных на портале поставщиком онлайн-услуг AOL в 2006 г. Чтобы сохранить анонимность, AOL удалил IP-адреса и никнеймы пользователей, осуществлявших поисковые запросы, заменяя их все тем же случайно выбранным идентификатором. В данном случае анонимность была взломана не аспирантом, а двумя журналистами, которые быстро сопоставили идентификатор 4417749 с Тельмой Арнольд, вдовой, проживающей в Лилберне, штат Джорджия. Журналисты сделали это, сузив поиск благодаря информации, содержавшейся в ее поисковых запросах: она искала медицинские недуги людей с фамилией Арнольд, информацию о собаках и т.д.

Еще один печально известный случай — так называемый «приз от Netflix» — произошел в 2006 г. База данных Netflix содержала сравнительные рейтинги предпочтений фильмов для полумиллиона подписчиков сервиса. Компанией был объявлен конкурс с призовым фондом в размере $1 млн за разработку алгоритма, который бы на 10% точнее существующего рекомендовал фильмы подписчикам. Вся личная информация, как и положено, была удалена, а идентификаторы заменены случайными кодами. На этот раз защиту взломали два исследователя из Техасского университета, Арвинд Нараянан и Виталий Шматиков. Вот их заявление: «Мы показываем, что злоумышленник, который знает хоть что-то об отдельном подписчике, может легко идентифицировать запись этого подписчика в наборе данных. Используя базу данных фильмов в интернете (IMDb) в качестве источника базовых знаний, мы успешно определили записи известных пользователей Netflix, выявив их очевидные политические предпочтения и другую конфиденциальную информацию».

Все вышеизложенное — это случаи, произошедшие относительно давно. В результате их были приняты законы, направленные на то, чтобы сделать наборы данных более безопасными и наказывать за попытки взломать анонимность. Но печальная правда заключается в том, что данные должны быть либо абсолютно темными и, следовательно, бесполезными, либо иметь для доступа хотя бы минимальную щель, через которую всегда может просочиться свет.

Сбор данных в темноте

Как мы видим, данные, идентифицирующие людей, можно анонимизировать в случаях, когда одни наборы данных связываются с другими, но есть возможность пойти еще дальше. Можно делать данные темными по мере их сбора и использования в расчетах, чтобы их вообще никто никогда не видел, но они по-прежнему были бы доступными для анализа. Ниже приведены некоторые из способов, которыми это можно сделать.

Прежде всего это рандомизированный ответ — хорошо известная стратегия сбора конфиденциальной личной информации, такой как данные, касающиеся сексуального или нечестного поведения. Для примера предположим, что мы хотим знать, какая часть населения хотя бы раз в жизни совершала кражу. Прямой вопрос на эту тему в лучшем случае приведет к искаженным ответам, поскольку очевидно, что люди склонны лгать и отрицать. Вместо этого мы просим каждого человека подбросить монету, которую видит только он. Люди проинструктированы, что, если выпадает орел, они должны правдиво ответить «да» или «нет» на вопрос «Совершали ли вы когда-нибудь кражу?», а если выпадает решка, то они должны просто ответить «да». Теперь для любого человека положительный ответ означает, что мы не будем знать, украл ли он что-то на самом деле или это монета упала решкой вверх. Но мы узнаем нечто большее. Поскольку вероятность того, что выпадет орел, равна 1/2, мы будем знать, что общее число ответивших «нет» — только половина тех, кто действительно ничего не крал. Так что удвоение этого числа скажет нам о том, сколько человек действительно не совершали краж. Вычитая это значение из общего числа, мы узнаем число тех, кому доводилось красть.

Дэвид Хью-Джонс из Университета Восточной Англии в Великобритании использовал вариант этой идеи, чтобы исследовать честность в 15 странах. Он просил людей подбросить монетку (сам не зная результата), суля вознаграждение $5, если выпадет орел. Если бы все сказали правду, можно было бы ожидать, что около половины людей сообщат, что выпал орел. Если доля утверждающих это больше половины, то, значит, люди лгут — и именно это Хью-Джонс использовал в качестве меры честности.

Стратегия рандомизированного ответа — способ скрывать данные по мере их сбора. Есть также способы скрывать данные во время расчетов. Защищенное многостороннее вычисление — это способ сбора информации в группе, при котором никто из ее участников не имеет доступа к чужим данным. Вот простейший пример. Предположим, мы хотим узнать среднюю зарплату в группе проживающих рядом людей, но все они очень чувствительны к раскрытию информации о своем заработке. В этом случае я прошу каждого из них разбить его зарплату на два числа, a и b, так, чтобы их сумма равнялась зарплате. Таким образом, тот, кто зарабатывает £20 000, может разделить их на £19 000 и £1000, или на £10 351 и £9649, или на £2 и £19 998, или даже на £30 000 и –£10 000. Совершенно не важно, как именно люди разделят свою зарплату. Они могут использовать и положительные, и отрицательные числа, главное, чтобы выполнялось условие — эти числа должны складываться в зарплату. Затем все части a отправляются кому-то, кто складывает их и получает общее значение A. Все части b отправляются кому-то другому (важно, чтобы это был другой человек), который также складывает их, чтобы получить значение B. Последний шаг — просто сложить A и B и разделить на число человек, чтобы получить среднее значение. Обратите внимание, что на протяжении этого процесса никто не знает значений чужих зарплат. Даже те люди, которые складывают одни части, понятия не имеют, что представляют собой другие части.

Защищенное многостороннее вычисление обеспечивает суммирования данных по популяции без какой-либо идентификации отдельных ее членов при работе со значениями в масштабе всей популяции или отдельной выборки. Но на самом деле можно пойти еще дальше. Гомоморфное вычисление позволяет шифровать данные, затемнять их и предоставлять кому бы то ни было для анализа, с тем чтобы он получил зашифрованный результат, не зная, что означают данные и результат. В этом случае вы — единственный, кто знает, как расшифровать значения данных и результат. История этого метода началась примерно с 2009 г., когда была опубликована статья Крейга Джентри из исследовательского центра IBM Watson, но сама идея родом из 1970-х гг. Далее приведен несложный и выдуманный пример, иллюстрирующий эту идею: в реальных приложениях используются куда более сложные методы.

Предположим, мы хотим рассчитать средний возраст членов некоего тайного общества, но вот беда: у нас нет даже калькулятора. Поэтому мы просим кого-нибудь со стороны, у кого он есть, сделать за нас расчеты, однако не хотим, чтобы этот человек видел значения возрастов (общество все-таки тайное). Чтобы сделать это, мы начинаем с «шифрования» возрастов, добавляя разные случайно выбранные числа к каждому из них. При этом мы вычисляем среднее значение всех случайных добавленных чисел. Теперь можно отправлять нашу шифровку — суммы исходных и случайных чисел — человеку, который взялся выполнить калькуляцию. Он складывает зашифрованные числа и отправляет нам их средние значения. Несложно догадаться, что если мы вычтем среднее значение случайных чисел из общего среднего, то получим средний возраст членов тайного общества.

Понятно, что это очень упрощенный пример, и, как правило, требуется сделать нечто более сложное, чем найти среднее значение.

Теперь мы знаем, что данные могут быть собраны, не будучи увиденными теми, кто их собирает, и то, что данные можно анализировать так, чтобы осуществляющие анализ не понимали, что именно они анализируют. В более общем смысле эта глава переворачивает концепцию темных данных с ног на голову. Обычно темные данные являются источником проблем — они скрывают от нас то, что мы хотим знать, и могут привести к искаженным выводам и недопониманию. Но из этой главы мы узнали о методах, которые делают сокрытие данных чрезвычайно полезным и, как следствие, ведут к более точным оценкам, улучшают процесс принятия решений и даже защищают от преступников.

Назад: ГЛАВА 8. Принцип работы с темными данными. Проливаем свет

Дальше: ГЛАВА 10. Классификация темных данных. Путь в лабиринте