Путь в лабиринте
Мы рассмотрели массу примеров темных данных, причины и последствия их появления, а также методы решения вызванных ими проблем. Однако ситуации часто бывают запутанными, поскольку данные могут быть темными по нескольким причинам одновременно. Вот пример.
При правительстве Великобритании существует исследовательская команда по поведенческому анализу. СМИ окрестили ее «отдел подталкиваний». Дело в том, что эта команда ищет небольшие стратегически реализуемые изменения в государственной политике (подталкивания), которые могут оказать большое влияние на поведение граждан. Вот что сказано в недавнем докладе команды: «В ряде документов и статей в прессе отмечается, что официальная статистика показывает значительное снижение потребления пищи с точки зрения калорий в Великобритании за последние 40 лет. В то же время мы наблюдаем увеличение средней массы населения за этот период. Каким образом наш вес увеличился, если мы стали меньше есть?.. Один из ответов заключается в том, что уровень физической активности населения снизился, соответственно снизился и расход калорий».
Это объяснение кажется возможным, хотя и довольно неожиданно. Его смысл в том, что, хотя британцы стали меньше есть, они сократили физическую нагрузку, а это привело к увеличению веса. Тем не менее в отчете сделан вывод, что такое объяснение неправдоподобно, поскольку «заявленный уровень потребления пищи с точки зрения калорий слишком низок, чтобы поддерживать наш текущий вес, даже если уровень физической активности минимален». В докладе также говорится, что «по оценкам, количество потребляемых калорий находится ниже рекомендуемой суточной нормы, составляющей 2500 килокалорий для мужчин и 2000 килокалорий для женщин (имеющих нормальный вес)». Команда предположила, что проблема заключается в темных данных.
Показатели закупки продуктов питания рассчитываются на основе данных Опроса о стоимости жизни и питания (LCFS). Потребление калорий оценивается по данным Национального опроса о диетах, питании и здоровье (NDN-SHS), проводимого в Англии. В отчете «отдела подталкивания» говорится, что эти опросы недооценивают показатели закупки продуктов питания и потребления калорий. Что касается LCFS, то доклад ссылается на «исследования, [которые] показали, что доля экономической активности, не охваченная LCFS, увеличилась с 2% в 1992 г. почти до 16% в 2008 г.». Когда команда скорректировала результаты LCFS, чтобы учесть этот фактор, она обнаружила, что потребление продуктов питания на самом деле увеличивалось с 1990-х гг. Показатели NDN-SHS были скорректированы с использованием так называемого метода двойной маркировки воды, который является «золотым стандартом измерения расхода энергии». Эта корректировка показала, что «в целом мы потребляем на 30–50% больше калорий, чем указано в официальной статистике».
Все вышесказанное выглядит как классический пример присутствия темных данных. Потребление калорий не снизилось — просто все выглядело так из-за недостающих или ложных данных. В докладе было предложено пять причин такого занижения показателей, включающих различные DD-типы:
В отчете «отдела подталкивания» указывается несколько очевидных причин появления темных данных, но во многих ситуациях множественность причин не так очевидна. Кроме того, выискивать причины появления темных данных, чтобы предпринять соответствующие шаги для преодоления рисков, часто бывает непросто.
Первым шагом должно быть осознание того, что темные данные могут присутствовать всегда. Базовое предположение должно заключаться в том, что имеющиеся данные являются неполными или неточными. Самое важное послание этой книги: относитесь к данным с подозрением — по крайней мере пока не будет доказано, что они адекватны и точны.
Также необходимо уметь распознавать ситуации, особенно чреватые проблемами с темными данными, видеть определенные признаки того, что темные данные искажают собранный материал, и реагировать на более общие ситуации, в которых кроется опасность. В книге я попытался облегчить вам эту задачу двумя способами.
Во-первых, это масса примеров, иллюстрирующих пути возникновения темных данных. Они показывают конкретные ситуации, на которые следует обращать внимание. Конечно, ситуации и контексты могут сильно отличаться от показанных в книге, но есть надежда, что приведенные здесь примеры послужат отправной точкой.
Во-вторых, это систематика DD-типов темных данных, представленная в главе 1 и используемая по ходу изложения. Чтобы вам было проще определять эти типы в реальных практических ситуациях, я кратко изложил их далее с примерами для каждого.
Эти DD-типы охватывают «видовое» разнообразие темных данных, так же, как оси координат очерчивают двумерную плоскость графика, но в отличие от осей координат мои DD-типы не претендуют на полный охват пространства темных данных. Не стоит сомневаться в том, что существуют случаи недостающих или искаженных данных, которые не упомянуты в книге. К тому же постоянно появляются и будут появляться все новые типы темных данных со своими особенностями. Так или иначе, предложенная систематизация DD-типов дает своего рода контрольный список опасностей и общих проблем, на которые следует обращать внимание, работая с любым набором данных. И, конечно, всегда необходимо помнить, что обнаружение одного DD-типа не исключает присутствия других.
Это «известные неизвестные» Рамсфелда. Они возникают, когда мы знаем, что в данных есть пробелы, скрывающие значения, которые могли быть записаны. Примером могут служить отсутствующие значения, как во фрагменте маркетинговых данных в табл. 1, или отказ людей из опросного списка отвечать на вопросы частично или полностью. В последнем случае, возможно, все, что мы знаем о респондентах, это их идентификационные данные.
Это «неизвестные неизвестные» Рамсфелда. Мы даже не знаем, что нам не хватает каких-то данных. Примером может служить веб-опрос, для которого нет списка возможных респондентов, поэтому мы в принципе не знаем, кто отказался его проходить. Катастрофа космического шаттла Challenger была следствием упущения такого рода, поскольку участники телеконференции не осознавали, что им не хватает некоторых данных.
Плохой набор критериев отбора для включения в выборку или ошибочное применение разумных критериев может привести к искажению выборки. В исследуемую группу могут войти более здоровые пациенты или люди, симпатизирующие той или иной компании. Это происходит, когда из большого числа случаев, осознанно или нет, выбираются «лучшие», чтобы избежать разочарования в будущем — возврат к среднему значению никто не отменял. Аналогично p-хакинг и неспособность учесть несколько гипотез означают, что научные результаты не смогут быть воспроизведены.
Самоотбор является вариантом предыдущих данных DD-тип 3. Он проявляется, когда людям дают право самостоятельно решать, что включать в базу данных, а что нет. Примерами самоотбора являются отсутствующие ответы в опросах, когда респонденты сами выбирают, отвечать им или нет, базы данных пациентов, где пациенты могут отказаться предоставлять свои данные, и в более общем плане — выбор услуг потребителями. Для всех этих примеров возможна ситуация, когда недостающие данные имеют какие-то системные отличия от данных имеющихся.
Иногда критически важный аспект системы совершенно незаметен. Это может привести к установлению ошибочных причинно-следственных связей, например между увеличением продаж мороженого и засыханием травы. Понятно, что в этом примере в причинно-следственной цепи отсутствуют данные о погоде, но нехватка ключевого звена не всегда бывает столь очевидна. Более проблематичный пример — парадокс Симпсона, в котором общий показатель может увеличиваться, в то время как все составляющие его показатели уменьшаются.
Контрфактуальные данные — это данные, которые мы бы смогли увидеть, если бы предприняли какие-то другие действия или наблюдали бы за происходящим при других условиях или в иных обстоятельствах. Примером может служить клиническое испытание, в котором все пациенты получают одинаковое лечение — возможно, потому что целью исследования является изучение сроков выздоровления, — и после того, как пациенты вылечены, уже невозможно посмотреть, как подействовало бы на них альтернативное лечение. Другим примером является возраст супруга того, кто даже не женат.
Время может скрывать данные разными путями. Данные могут перестать соответствовать точному описанию мира, одни факты могут перестать регистрироваться за пределами периода наблюдений, а другие — потому что изменилась их природа, и т.д. Примерами могут служить медицинские исследования интервалов выживания, когда смерть пациента наступила после окончания периода наблюдения, а также данные по населению 20-летней давности, что может иметь сомнительную ценность для разработки текущей государственной политики.
Определения могут быть противоречивыми или со временем меняться, чтобы лучше соответствовать своему предмету и его назначению. Это может вызвать проблемы в случае с экономическими (и другими) временными рядами, когда данные, лежащие в их основе, могут перестать собираться. В более общем смысле, если люди по-разному определяют понятия, они вполне могут сделать и разные выводы. Одним из примеров является уровень преступности в Великобритании, который оценивается по полицейским записям и по опросам потерпевших, где определения преступления неодинаковы.
Обобщение данных по определению означает отбрасывание деталей. Если вы сообщаете только среднее значение, то не даете никакой информации о диапазоне данных или об асимметрии распределения. Среднее значение может скрыть тот факт, что некоторые значения могут очень сильно от него отличаться. В то же время обобщение может скрывать и тот факт, что все значения идентичны.
Ошибки измерения приводят к неопределенности истинного значения. Это легче всего понять, представив ситуацию, в которой диапазон погрешности измерения равен или больше, чем диапазон базовых истинных значений, — в этом случае наблюдаемое значение может сильно отличаться от истинного. Округление и нагромождение, верхний и нижний пределы избыточности и прочие эффекты вносят неопределенность в данные, скрывая их точные значения. Другой причиной неопределенности и неточности является связь данных, при которой идентифицирующая информация может храниться в разных формах, что приводит к ошибкам сопоставления.
Этот тип данных возникает, когда собранные значения начинают влиять на исходный процесс — как в случае раздувания оценок и пузырей на рынках акций. Это означает, что данные искаженно представляют базовую реальность и, возможно, с течением времени все больше отдаляются от нее.
Информационная асимметрия возникает, когда разные наборы данных хранятся у разных людей, и когда кто-то знает то, чего не знают другие. В качестве примера можно привести инсайдерскую торговлю, рынок «лимонов» Акерлофа и международную напряженность, вызванную ограниченной информацией о возможностях других государств.
Эти случаи предумышленного отбора определенных фактов являются особенно проблематичными. Они наблюдаются, когда люди намеренно скрывают данные или манипулируют ими с целью обмана или введения в заблуждение. Мы видели, что такое мошенничество может возникать в очень разных контекстах и отношениях.
Когда данные создаются искусственно, они могут вводить в заблуждение, как и в случае мошенничества. Однако существует метод симуляции, когда генерируются искусственные наборы данных, которые могли возникнуть в результате изучаемого процесса, а также другие методы, использующие репликацию данных, например методы бутстреппинга, бустинга и сглаживания. Современные статистические инструменты широко используют такие идеи, но некачественная репликация может привести к ошибочным выводам.
Наборы данных всегда конечны. Это означает, что они имеют максимальное и минимальное значения, за пределами которых лежит неизвестность. Заявление о возможных значениях выше максимума или ниже минимума в наборе данных требует выдвижения предположений или получения информации из какого-то другого источника. Опасность, которую несет этот тип темных данных, мы рассмотрели на примере катастрофы шаттла Challenger, запуск которого произошел при температуре окружающей среды ниже диапазона температур предыдущих запусков.
Я не погрешу против истины, если скажу, что в последние столетия бурному развитию цивилизации сопутствует прогресс науки о данных. В конце концов, слово «данные» почти синонимично слову «факты», а именно на фактах базируется технический прогресс и просвещение, которые за последние века привели к росту экономики и развитию общества.
Если основой современного промышленного развития является ископаемое топливо, то данные сегодня — это «новая нефть». Так же, как это было некогда с нефтью, те, кто может эффективно контролировать данные и манипулировать ими, делают сегодня огромные состояния. Но еще более важным в этой аналогии является то, что подобно нефти данные необходимо очищать и предварительно обрабатывать, чтобы сделать их полезными. Борьба с загрязнением информации темными данными является примером такой очистки.
Однако аналогия с нефтью имеет и свои слабые стороны. В отличие от цены на нефть, одинаковой для всех, ценность данных зависит от того, что конкретно вы хотите знать. Более того, в отличие от нефти, данные могут быть проданы или переданы без смены собственника — по своей природе они могут копироваться и воспроизводиться неограниченное число раз. И, конечно, данные могут быть темными: то, чего у вас нет, может существенно ограничить то, что у вас есть. Помимо прочего, с данными связаны такие вопросы, как неприкосновенность частной жизни и конфиденциальность, которые просто не имеют аналогий в мире нефти. Данные представляют собой нечто большее, чем просто новый товар. Именно поэтому правительства прилагают столько усилий для решения этических вопросов, связанных с управлением данными.
В значительной степени революция данных была связана с данными наблюдений. В главе 2 мы познакомились с этим видом данных, описывающих естественную эволюцию процессов без явного вмешательства человека, и, как было показано, данные наблюдений особенно уязвимы для рисков, которые несут темные данные. Данные наблюдений контрастируют с экспериментальными данными, подразумевающими, что параметры воздействующих факторов контролируются. Кроме того, огромные объемы данных наблюдений генерируются автоматическими системами сбора информации и являются побочным эффектом различных административных операций.
Классическим примером того, какие идеи можно извлечь из данных нового типа, служит проект «Миллиард цен». Альберто Кавалло и Роберто Ригобон из Школы менеджмента Слоуна извлекли огромное количество онлайн-цен из интернета и использовали их для построения индексов инфляции. На основе этого открытого источника данных они показали, что уровень цен и динамика инфляции в Бразилии, Чили, Колумбии и Венесуэле примерно совпадают. Кроме того, они обнаружили «в Аргентине большое необъяснимое расхождение между уровнями инфляции по онлайн-ценам и по официальной статистике». Простого объяснения этого несоответствия не было. Кавалло заключил: «Результаты для Аргентины подтверждают подозрение, что правительство манипулирует официальной статистикой по инфляции. Это единственная страна, где онлайн-инфляция с течением времени значительно отклоняется от официальных оценок».
Кавалло и его коллеги полностью отказались от традиционной процедуры сбора данных для расчета индексов инфляции. Из главы 3 вам известно, что она предполагает работу групп исследователей, посещающих магазины и собирающих данные с ценников на полках. Это не только дорого, но и медленно. В отличие от классического подхода, проект «Миллиард цен» позволяет обновлять индекс инфляции ежедневно.
Бесспорно, это огромный успех в сфере больших данных. Но даже здесь все может оказаться не столь радужным, как выглядит на первый взгляд. В частности, Кавалло и Ригобон говорят: «Мы… фокусируемся в основном на крупных многоканальных розничных сетях и не берем в расчет магазины, торгующие только онлайн (такие, как )». Они отмечают, что онлайн-цены охватывают гораздо меньший набор ритейлеров и категорий продуктов, чем традиционный подход к ценовым индексам, и указывают на необходимость выбора, с каких именно сайтов брать данные, а это прямой путь к появлению темных данных в виде множества небольших онлайн-магазинов. Более того, онлайн-цены являются всего лишь ценами и не показывают объемы продаж.
Дело не в том, что все это — непреодолимые препятствия. Понимая их, мы можем работать над их преодолением. Но проблема темных данных все равно останется, поскольку само понятие инфляции, используемое в рамках проекта «Миллиард цен», несколько отличается от традиционных определений.
Существуют и другие, возможно, более серьезные проблемы, связанные с сетевыми данными. Например, алгоритм поиска Google постоянно обновляется, становясь все более эффективным, но детали этих изменений остаются непрозрачными для всех, кроме разработчиков. Например, к последним изменениям относятся введение показателя качества веб-страницы при ранжировании, понижение рейтинга сайтов, которые считаются манипулятивными, обработка запросов на естественном языке для лучшего понимания их цели, повышение рейтинга страниц, оптимизированных для мобильных устройств, и идентификация сайтов, нарушающих правила Google. Все эти изменения кажутся разумными и полезными, но дело в том, что они постоянно меняют природу собираемых данных; проще говоря, затруднительно сравнивать данные, собранные до и после изменения (DD-тип 7: данные, меняющиеся со временем). В частности, показатели экономического и социального благополучия могут меняться не потому, что изменилась базовая реальность, а потому, что изменились собираемые данные об этой реальности — так называемый сдвиг показателей. Именно темные данные лежат в основе этих изменений.
Мы имели возможность убедиться, что целая череда успешных историй основана на связывании наборов данных, их комбинировании, дублировании и объединении данных из разных источников. Потенциальная мощь таких методов несомненна, поскольку разные источники, вероятно, содержат разную информацию о тех или иных аспектах изучаемого предмета. Чаще всего этим предметом оказываются люди, и очевидно, что такие проекты могут быть чрезвычайно полезны, например для укрепления здоровья граждан и повышения благополучия общества. Но риски темных данных при связывании баз остаются всегда. Генеральные совокупности в базах данных часто не совпадают полностью (одна может включать какие-то случаи, другая нет), а во время сопоставления могут возникнуть несоответствия в силу различных способов хранения данных (является ли Джон Смит тем же человеком, что и Джон В. Смит или Дж. В. Смит?). Не говоря уже о дубликатах записей.
Эта книга в первую очередь о том, как темные данные водят за нос людей (а во вторую — что людям с этим делать). Но проблема несколько шире: темные данные могут вводить в заблуждение не только людей, но и машины. По мере того, как машинное обучение и искусственный интеллект становятся все более распространенными, следует ожидать, что будет появляться все больше сообщений о том, как темные данные обманули машину или даже привели к ее аварии. В области машинного обучения и компьютерного зрения существует концепция, которую иногда называют «Умный Ганс». Вот поучительная история ее появления.
Умным Гансом звали коня, принадлежавшего школьному учителю арифметики Вильгельму фон Остену. Умный Ганс был настолько умным, что умел складывать, вычитать, умножать и делить числа, определять время и даже читать и понимать по-немецки. Фон Остен задавал Гансу вопрос (письменно или устно), и, поскольку Ганс не мог ни говорить, ни писать (видимо, для него это было не так умно), он отвечал, постукивая копытом нужное количество раз.
В 1907 г. этот феномен исследовал биолог и психолог Оскар Пфунгст. По его выводу, хотя никаких уловок со стороны хозяина не предпринималось, сказать, что Ганс производит вычисления, было нельзя. Смышленый конь улавливал подсознательные сигналы своего хозяина, который и производил вычисления. Интересно, что сам фон Остен не отдавал себе отчета в том, что подает какие-то сигналы. В этом есть определенное сходство с рассказами игроков в покер.
Для нас важно, что Умный Ганс на самом деле не отвечал на те вопросы, на которые, как полагали зрители, он отвечает. То же самое может случиться и с машинами: их анализ, классификация, решения могут основываться на непредвиденных аспектах входных данных, в том числе на таких, о которых вы даже не подозреваете. В некоторых случаях «едва различимые незначительные отклонения для правильно классифицированного входного изображения [могут означать], что оно перестает классифицироваться правильным образом». Используя эту слабость автоматических алгоритмов, исследователи из Университета Карнеги–Меллона разработали фигурную оправу для очков, которая для нас выглядит привычно, но при этом начисто сбивает с толку искусственный интеллект и не позволяет ему определить носителя очков. К сожалению, исследователи обнаружили, что путаница не ограничивается конкретным алгоритмом нейронной сети, а представляет собой общую проблему для этого класса алгоритмов. Очевидно, что машины видят вещи совершенно иначе, чем мы, и также ясно, что их видение — это не то, что нас интересует.
Пути возникновения темных данных неисчислимы, как вы смогли убедиться, прочитав эту книгу. Они могут появляться и случайно, и преднамеренно: иногда люди пытаются скрыть правду, представляя вещи так, как им выгодно. Выявить это помогает бдительность, а также весьма полезная стратегия — взгляд под другим углом. Пищу можно охарактеризовать как «обезжиренную на 90%», и это звучит соблазнительно, но если на упаковке будет написано «жирность 10%», то это уже не так аппетитно. Аналогичным образом выбор лекарства или образа жизни может быть описан как снижение риска заражения каким-либо заболеванием вдвое. Но если цифры показывают, что сокращение вдвое уменьшило риск с 2 до 1%, то вам это будет уже не так интересно: оба значения можно считать несущественными. Этот пример, возможно, станет еще ярче, если пролить свет на темные данные, содержащиеся в нем, перевернув их: повышение шансов избежать болезни с 98 до 99% вряд ли привлечет хоть одного покупателя, если речь идет о лекарстве.
Наиболее очевидным источником темных данных является будущее. Несмотря на заявления различных провидцев, ясновидящих и пророков, будущее — это территория неизвестного, где неожиданные события всегда могут вмешаться и сбить вас с пути, по которому вы намеревались идти. Бессчетное число разорений в сфере бизнеса служит тому доказательством. Хедж-фонд Long Term Capital Management (LTCM) уже испытывал сложности, когда на него внезапно обрушился российский дефолт по облигациям в национальной валюте в 1998 г. Потенциальный коллапс LTCM с возможной цепной реакцией, которая бы вызвала огромные убытки в финансовой сфере, стал причиной масштабной операции по его спасению. Точно так же Swissair, ранее считавшаяся очень надежной компанией, начала «агрессивную стратегию заимствований и поглощений» в конце 1990-х гг., пока теракты 2001 г. в Нью-Йорке не обрушили ее рыночную стоимость, что не позволило компании справиться с долговой нагрузкой.
Последний в этой книге пример можно назвать демонстрацией эффекта темных данных в буквальном смысле. В конце 1970-х — начале 1980-х гг. произошла так называемая война форматов видеозаписи между Betamax от Sony и VHS от JVC. В принципе, Betamax был превосходной технологией, с лучшим разрешением и более качественным изображением, но победил VHS. Техническое превосходство Betamax не смогло перевесить его большую стоимость и ограничение времени записи одним часом. Кассеты же VHS позволяли делать двухчасовые записи. Проблема заключалась в том, что голливудские фильмы, как правило, длились более одного часа, а это означало, что часть важных данных невозможно было записать. Sony отреагировала на эту проблему, разработав свою технологию увеличения времени записи, но к тому времени, когда она стала доступна, формат VHS уже завоевал рынок.
Мы входим в дивный новый мир. Возможности, которые открываются перед нами благодаря углублению понимания и созданию надежных прогнозов на основе данных, ограничены исключительно нашим воображением. Однако мы должны действовать осторожно. Каждый шаг на этом пути чреват опасностями. Как я отметил в начале этой книги, мы не знаем и не можем знать всего о данных, которые анализируем, о том, как они были собраны или откуда поступили. И что еще хуже, мы не знаем, что чего-то не знаем. Поскольку то, чего мы не знаем, может быть критически важным, один неосторожный шаг способен сделать наши представления неверными, а прогнозы — ошибочными со всеми вытекающими последствиями для здоровья, финансов и благополучия в целом. Энтузиазм в отношении науки о данных полностью оправдан, но его следует сдерживать разумной осторожностью. Единственное решение состоит в том, чтобы осознать риски и неукоснительно проявлять бдительность.
Помните старый анекдот про пьяного, который искал ночью свои ключи под фонарем не потому, что потерял их там, а потому, что это было единственное освещенное место? То же самое часто происходит в отношении темных данных. Исследователи, аналитики и все, кто пытается извлечь какой-то смысл из данных, похожи на этого пьяного, если ограничивают себя имеющимися данными. Не понимая, как именно возникли данные и что именно может отсутствовать, вы сами ставите себя в положение того, кто ищет только там, где светло, а вовсе не там, где могут быть ответы. Но концепция темных данных выходит за рамки простого представления о незарегистрированных данных. Она также выходит далеко за пределы различий между известными неизвестными и неизвестными неизвестными. Да, все это темные данные, но также к ним относятся и данные, которые, возможно, никогда не могли существовать, или данные, которые мы намеренно фальсифицировали. Концепция темных данных переворачивает традиционный взгляд на вещи и ведет к углублению понимания явлений, встраивая наблюдаемые данные в более широкий контекст, частью которого и является.
Я очень надеюсь, что примеры, собранные мной в этой книге, дадут вам начальное представление о рисках, которые несут темные данные, и о том, что, где и какими методами нужно искать, а затем исправлять. Я также надеюсь, что вы сумеете найти свои способы расширить маленькое пятно света от фонаря и осветить окрестности. И еще я надеюсь, что книга поможет вам распознавать ситуации, когда имеет смысл самому стратегически отбросить тень, чтобы прийти через это к новому пониманию нашего мира.