Допущения в основе больших данных
Большие данные связаны с корреляцией, а не с причинной связью. Они могут выявить статистически значимую зависимость, но не объяснить ее. С увеличением наборов данных возрастает риск недостоверных статистически значимых корреляций. В огромном стоге сена может быть спрятана масса иголок. Большие данные предлагают информацию без какого-либо истолкования. Как отметил в 2014 году экономист и журналист Тим Харфорд в статье в Financial Times, «большие данные не решают проблему, которой веками одержимы специалисты по статистике и ученые. Не позволяют понять значение происходящего и определить, как своим вмешательством мы можем изменить систему к лучшему».
Что происходит, когда большие данные используются вместо традиционных методов исследования, а не наряду с ними? Ситуация с Google Flu Trends служит наглядным примером. В 2008 году исследователи Google поставили цель использовать поисковые запросы для предсказания массовых вспышек гриппа. Ученые отслеживали в Google запросы, связанные с заболеванием. Предполагалось, что поисковая система поможет выявлять очаги гриппа быстрее, чем центры по контролю и профилактике заболеваний. С помощью технологии анализа данных в реальном времени и распознавания паттернов исследователи применили свою теорию на практике. Результаты были опубликованы в журнале Nature. Все указывало на грандиозный успех. Запросы Google позволяли прогнозировать вспышки гриппа на две недели быстрее, чем данные центров по контролю и профилактике заболеваний.
Но затем Google Flu Trends стала давать сбой. Она упустила из виду эпидемию вируса H1N1 в 2009 году и серьезно переоценила вспышки гриппа в 2012–2013 годах. За двухлетний период, закончившийся в 2013 году, прогнозы Google Flu Trends были завышены в 100 из 108 недель. Что пошло не так? Среди прочих проблем алгоритм Google был уязвим перед любыми запросами, связанными с сезоном гриппа, но не с самим заболеванием. Таким образом, запросы вроде «студенческий баскетбол» и «куриный бульон» считались сигналом о гриппе, хотя это совершенно случайная корреляция без реальной причинно-следственной связи с заболеванием. Большим данным безразлично, почему сделан запрос: они отражают эмпирический подход. Любые отклонения и искажения при принятии решения людьми отбрасываются. Предпочтение отдается дедуктивному способу рассуждения. Индуктивные методы исследования отвергаются. При достаточном объеме данные говорят сами за себя, и вам не нужна теория. Но в случае с Google Flu Trends для того чтобы придать корреляциям значение и установить причинно-следственную связь, необходим более глубокий анализ. Большие данные не могут просто избавиться от зависимости от традиционных методов исследования. Их смысл по-прежнему зависит от интерпретации. Вопреки всем усилиям Кремниевой долины, большие данные никогда не будут нейтральными.
Несмотря на примеры вроде Google Flu Trends, показывающие ограничения больших данных, сторонники Кремниевой долины продолжают обращать людей в свою веру. Их доводы основаны на легендарной статье «Конец теории» Криса Андерсона, опубликованной в журнале Wired в 2008 году. Якобы то, как мы объясняли действительность в прошлом — с помощью моделей и гипотез, — становится все менее актуальным. Превращается в грубое приближение к истине. В 2008 году интернет, смартфоны и системы управления взаимоотношениями с клиентами уже обеспечивали переизбыток данных. «Цифры говорят сами за себя, — писал Андерсон, цитируя Питера Норвига, директора по исследованиям в Google. — Все модели неверны. И все чаще вы справляетесь с задачей без них». Андерсон развил идеи Норвига и пошел в рассуждениях дальше: «В этом мире огромные массивы данных и прикладная математика заменяют любой другой инструмент, который нам только доводилось использовать. Долой теории человеческого поведения — от лингвистики до социологии. Забудьте таксономию, онтологию и психологию. Кто знает, почему люди поступают так или иначе? Суть в том, что это происходит. И мы можем отследить и измерить все их действия с беспрецедентной точностью. При достаточном объеме данные говорят сами за себя».
Эти компании поддались идее о целесообразности данных, поверили в то, что больший набор фактов всегда гарантирует лучший результат. Считается, что обширные данные лучше отвечают интересам потребителей. Позволяют более точно отражать их нужды и чаяния. Ведут к прогрессу общества в целом. Но действительно ли больше значит лучше?
Понимание мира на основе выборки фактов, исчисляемых миллионами, предполагает радикальный отказ от других типов исследования. Большие данные дают некоторую информацию о людях в целом, но поразительно мало сообщают об отдельном человеке. Насколько правдиво можно отразить ситуацию с позиций Кремниевой долины, если этот образ мыслей отрицает, что человеческое поведение неотделимо от контекста?
Один из основателей прагматизма XIX века Уильям Джеймс критиковал наивный подход к данным современников — сторонников редукционизма. В книге «Принципы психологии» 1890 года философ утверждал: «Никто никогда не испытывал простое ощущение само по себе. В сознании… в великом множестве представлены объекты и связи». Белый лебедь в красном свете кажется красным. Для того чтобы понять, какой он на самом деле, нужно учитывать свойства света. Другими словами, факты всегда существуют в контексте. Если их разбить на элементы, то данные станут бессмысленными и неполными.