Майк Флауэрс работал юристом в офисе окружного прокурора Манхэттена, занимаясь судебным преследованием по различным делам, от убийств до преступлений на Уолл-стрит, прежде чем перешел в одну из шикарных корпоративных адвокатских контор в начале 2000-х годов. Проведя год за скучной офисной работой, Майк решил уйти. Ему хотелось делать что-то более значимое, например помогать вершить перестройку в Ираке. Коллега сделал пару звонков вышестоящим лицам — и Флауэрс не успел опомниться, как направился в «Зеленую зону» (безопасный район для американских войск в центре Багдада) в составе группы юристов для суда над Саддамом Хусейном.
Его задача оказалась скорее логистической, чем юридической. Флауэрсу предстояло определить места предполагаемых массовых захоронений, чтобы знать, куда направить следователей на раскопки. Кроме того, ему нужно было благополучно переправить свидетелей в «Зеленую зону», обезопасив их от взрывов многочисленных СВУ (самодельных взрывных устройств), которые были страшной повседневной реальностью. Он увидел, что военные рассматривали эти вопросы как задачи обработки данных. Аналитики разведывательной службы, например, сочетали полевые отчеты со сведениями о местоположении, времени и жертвах прошлых СВУ, чтобы спрогнозировать наиболее безопасный маршрут на конкретный день.
По возвращении в Нью-Йорк два года спустя Флауэрс понял, что те методы являлись более эффективным способом борьбы с преступностью, чем он когда-либо имел, будучи прокурором. К тому же Флауэрс нашел поистине родственную душу в лице мэра Майкла Блумберга, который сколотил состояние на поставке банкам финансовой информации и ее анализа. Флауэрса определили в специальную оперативную группу по обработке чисел, которая должна была разоблачить преступников, замешанных в скандале с ипотеками высокого риска в 2009 году. Работа группы оказалась настолько успешной, что уже через год мэр Блумберг попросил ее расширить сферу деятельности. Флауэрс стал первым городским «директором по аналитике». Его миссия заключалась в том, чтобы создать команду лучших ученых в области данных, которых только можно было найти, и с их помощью обрабатывать нетронутые городские залежи информации на благо всех и вся.
Флауэрс раскинул сеть для поиска подходящих людей: «Меня не интересовали очень опытные статистики, поскольку они могли не принять новый подход к решению проблем». В ходе собеседований со статистиками для проекта, связанного с финансовым мошенничеством, Флауэрс заметил, что они склонны проявлять скрытое беспокойство по поводу математических методов. «Я даже не задумывался о том, какая модель будет использоваться. Мне нужны были результаты, дающие основания для конкретных действий. Это все, что меня заботило», — говорит он. Флауэрс собрал команду из пяти человек (как он их назвал, «напарников»). Все, кроме одного, были экономистами по специальности, окончившими вуз всего год или два назад, без особого жизненного опыта в большом городе, но с определенным творческим потенциалом.
Одна из первых задач, с которыми они столкнулись, была связана с серьезным вопросом «незаконного переоборудования» — практикой разделения жилищ на множество мелких помещений, чтобы вместить в десятки раз больше людей, чем предусмотрено по проекту. Незаконно переоборудованные жилища не только имеют высокую пожароопасность, но и являются рассадниками преступности, наркомании, болезней и вредителей. Клубки проводов, опоясывающие стены, электроплиты прямо на покрывалах, люди, утрамбованные вплотную. В таких адских условиях люди мрут как мухи. В 2005 году двое пожарных разбились насмерть, пытаясь спасти людей в одном из приютов. Нью-Йорк ежегодно получает около 25 000 жалоб на незаконное переоборудование, но их обработкой занимается всего 200 инспекторов. При этом у них нет надежного способа отличить простые неудобства от реальной угрозы воспламенения. Флауэрс и его напарники увидели в этом задачу, которую можно решить с помощью большого количества данных.
Они начали с составления списка всех 900 000 зданий в городе. Затем изучили наборы данных, полученные от 19 различных учреждений, в которых указывались наличие задержек в уплате налогов на недвижимость со стороны владельца здания, разбирательств по поводу взысканий по закладной, отклонений в оплате коммунальных услуг или их отключение за неуплату. Учитывались информация о типе здания и времени его постройки, визиты скорой помощи, уровень преступности, жалобы на грызунов и многое другое. Полученные данные сравнивались с упорядоченными по степени сложности данными о пожарах за последние пять лет. Тем самым планировалось выявить корреляции для создания модели, которая сможет прогнозировать, какие жалобы требуют наиболее быстрого реагирования.
Основная часть исходных данных была представлена в неподходящей форме. Отсутствовало единообразие в описании местоположения домов: каждые агентство и департамент, похоже, имели свой подход. Департамент строительства давал каждому зданию уникальный номер. У департамента по сохранению жилищного фонда была иная система нумерации. Налоговый департамент присваивал каждому объекту недвижимости идентификатор на основе района, квартала и участка. Полиция использовала декартову систему координат. Пожарные учитывали близость к «пожарным извещателям», связанным с расположением пожарной части (хотя сами пожарные извещатели уже упразднены). Напарники Флауэрса задействовали эти беспорядочные данные, разработав систему, которая учитывает радиус вокруг передней части здания на основе декартовых координат и добавляет геолокационные данные, полученные из других учреждений. Изначальные сведения были неточными, но огромное количество данных, загружаемых в систему, с лихвой компенсировало этот недостаток.
Команда не довольствовалась одними лишь математическими вычислениями. Напарники Флауэрса изучили работу инспекторов в полевых условиях. Они делали многочисленные заметки и выспрашивали у профессионалов мельчайшие подробности. Если умудренный опытом начальник сообщал, что здание, к которому они подошли, не представляет угрозы, напарники хотели знать причину его уверенности. Он не мог ее точно сформулировать, но со временем напарники поняли, что он имел в виду новую кирпичную кладку снаружи здания. Это означало, что владелец заботился о здании должным образом.
Напарники вернулись в свои кабины, задаваясь вопросом, как внести в свои модели такой сигнал, как «свежая кирпичная кладка». В конце концов, кирпичи пока еще не датифицированы. Зато на выполнение любых фасадных кирпичных работ требовалось разрешение городских властей. Эта информация значительно улучшила прогностическую эффективность системы, указывая, какие здания, скорее всего, не представляли особого риска.
Аналитика неоднократно демонстрировала, что некоторые из освященных веками способов ведения дел не были лучшими, равно как скаутам из фильма «Человек, который изменил всё» пришлось смириться с недостатками своей интуиции. Например, раньше количество звонков с жалобами по горячей линии города «311» рассматривалось как индикатор наиболее серьезных проблем: чем больше звонков, тем серьезнее проблема. Но это оказалось ложной предпосылкой. Крыса, замеченная в шикарном Верхнем Ист-Сайде, могла обеспечить 30 звонков в час, но в районе Бронкса понадобилось бы не меньше армии грызунов, чтобы соседи соизволили набрать номер. Точно так же большинство жалоб на незаконное переоборудование могло быть связано с шумом, не вызвавшим каких-либо серьезных последствий.
В июне 2011 года Флауэрс с напарниками «щелкнули выключателем». Все жалобы, подходящие под категорию незаконного переоборудования, были пропущены через их систему на еженедельной основе. Напарники отобрали данные о 5% статистически наиболее пожароопасных зданий и передали их инспекторам для незамедлительной проверки. Полученные результаты ошеломили всех.
До применения анализа больших данных инспекторы в первую очередь проверяли жалобы, которые считали самыми неотложными. Но только в 13% случаев условия оказывались достаточно тяжелыми, чтобы требовать выселения. Теперь инспекторы выдавали ордеры на выселение более чем в 70% случаев проверок. Большие данные позволили пятикратно повысить эффективность рабочего времени инспекторов. И результаты работы улучшились, так как можно было сконцентрировать усилия на самых серьезных проблемах. Обретенная эффективность имела и побочные преимущества. Пожары на незаконно переоборудованных участках в 15 раз чаще приводили к ранениям или гибели пожарных, поэтому новый подход тут же нашел признание в рядах пожарной службы. Флауэрс и его напарники были похожи на волшебников с хрустальным шаром, который позволяет заглянуть в будущее и предсказать, какие места наиболее опасны. Они взяли огромное количество данных, хранившихся долгие годы и практически не используемых с момента сбора, и применили их по-новому, извлекая реальную пользу. С помощью огромного массива информации напарникам удалось сделать ценные открытия, которые были бы невозможны при ее меньших количествах. В этом и есть суть больших данных.
Опыт нью-йоркских «алхимиков» в области аналитики наглядно демонстрирует множество тем, раскрытых в этой книге. Они использовали гигантский объем данных, а не его небольшую часть. Их список зданий в городе представлял собой не что иное, как массив данных «N = всё». Их не смутила беспорядочность данных, например информации о местоположении или записей скорой помощи. Преимущества большого количества данных перевесили недостатки меньшего количества нетронутой информации. Напарникам удалось достичь своих целей, поскольку многие характеристики города были представлены (пусть и непоследовательно) в виде данных, что позволило обрабатывать и использовать информацию для улучшения прогнозов.
Догадки экспертов, будь то напыщенные статистики или государственные служащие, отвечающие за горячую линию для жалоб, были вынуждены уступить место подходу, основанному на данных. Вместе с тем Флауэрс и его напарники постоянно сверяли свои модели с мнением опытных инспекторов, чьи советы помогли усовершенствовать систему. Однако важнейшей причиной ошеломительного успеха программы был отказ от причинности в пользу корреляции.
«Меня не интересуют причинно-следственные связи, если только они не касаются конкретных действий, — поясняет Флауэрс. — Это не для меня. И, честно говоря, все эти разговоры о причинности полны неясностей. Не думаю, что день разбирательства по поводу взысканий по закладной и статистическая вероятность пожара в определенном здании хоть как-то взаимосвязаны. Я полагаю, было бы глупо так считать. И никто бы не объявил об этом во всеуслышание. Считается, что есть основные факторы. Но я даже не хочу в это вникать. Мне нужна конкретная точка данных, которая имеет определенную значимость и к которой у меня есть доступ. Если она значима, мы будем ее учитывать, а если нет — то нет. В общем, нам нужно решать реальные проблемы. И, откровенно говоря, я не могу себе позволить отвлекаться на причинность и прочую ерунду».
Большие данные имеют огромное практическое значение как технология, которая служит решению животрепещущих повседневных проблем, но при этом порождает еще больше новых. Большие данные способны изменить наш образ жизни, труда и мышления. В каком-то смысле мы упираемся в больший тупик, чем во времена других эпохальных инноваций, значительно расширивших объем и масштабы информации в обществе. Мы стоим на зыбкой почве. Старые факты подвергаются сомнению. Ввиду больших данных необходимо пересмотреть понятия природы принятия решений, судьбы и справедливости. Мировоззрение, сотканное из понимания причин, теперь оспаривается доминированием корреляций. Обладание знанием, которое когда-то означало понимание прошлого, постепенно преобразовывается в способность прогнозировать будущее.
Эти вопросы намного важнее тех, которые возникали по мере запуска интернет-магазинов, повседневного использования интернета, входа в эпоху компьютеров или введения в обиход абака. Мысль о том, что стремление понять причины может быть переоценено и в большинстве случаев выгоднее отказаться от вопроса почему в пользу вопроса что, предполагает, что эти вопросы оказывают существенное влияние на наш образ жизни и мышления. Однако они могут оказаться риторическими. По сути, эти вопросы — часть вечных дискуссий на тему места человека в мире и его поисков смысла жизни в суматохе хаотичного и непостижимого мира.
Большие данные ознаменовали момент, когда «информационное общество», наконец, начало оправдывать свое название. Всю собранную цифровую информацию теперь можно по-новому использовать в инновационных целях, открывая новые формы ценности. Для этого нужен иной тип мышления, который бросает вызов нашим учреждениям и даже нашему чувству идентичности. Ясно одно: объем данных будет неуклонно расти, равно как и возможности их обработки. Но если большинство людей рассматривают большие данные как технологический вопрос, сосредоточив внимание на аппаратном или программном обеспечении, мы считаем, что акцент необходимо перенести на то, что происходит, когда данные «говорят».
Мы можем собирать и анализировать больше информации, чем когда-либо. Нехватка данных отныне не определяет наши усилия для познания мира. Мы можем использовать значительно больше данных, а в некоторых случаях даже все. Но для этого придется взять на вооружение нестандартные способы обработки и, в частности, изменить свое представление об идеале полезной информации.
Вместо того чтобы ставить во главу угла точность, чистоту и строгость данных, мы можем — и это даже необходимо — несколько ослабить свои требования. Данные не должны быть заведомо ошибочными или ложными, но их беспорядочность не представляет особых проблем при многократном увеличении масштаба. Она может быть даже выгодной, так как, используя лишь небольшую часть данных, мы упускали из виду широкое поле подробностей, где обнаруживается масса знаний.
Поскольку корреляции можно найти гораздо быстрее и с меньшими затратами, чем причинность, им нередко отдается предпочтение. В некоторых случаях (например, при тестировании побочных эффектов препарата или проектировании важнейших частей самолета) по-прежнему понадобятся исследования причинно-следственных связей и эксперименты в контролируемых условиях с тщательным контролем данных. Но для многих бытовых нужд вполне достаточно знать ответ на вопрос что, а не почему. Кроме того, корреляции больших данных способны указать перспективные направления для поиска причинности.
Быстрые корреляции позволяют экономить на покупке авиабилетов, прогнозировать вспышки гриппа и определять люки и перенаселенные здания, которые следует осмотреть, в условиях ограниченных ресурсов. Они же позволяют медицинским страховым компаниям принимать решения по страховой защите без медицинского осмотра и снижают стоимость напоминаний больным о приеме лекарств. На основании прогнозов, сделанных с помощью корреляций среди больших данных, выполняются переводы и создаются системы автоматического управления автомобилем. Walmart может узнать, какой сорт печенья Pop-Tarts положить сразу у входа в магазин, когда надвигается ураган (ответ: со вкусом клубники). Конечно, причинно-следственные связи не лишние, когда их удается уловить. Проблема в том, что зачастую их выявить непросто, и мы нередко обманываем себя, считая, что нам это удалось.
Все эти новые возможности в какой-то мере обеспечиваются новыми инструментами — от более быстрых процессоров и увеличенного объема памяти до более эффективного программного обеспечения и алгоритмов. Они, безусловно, играют важную роль, но больше данных у нас появляется благодаря постепенной датификации всего и вся. Надо отметить, что стремление измерить мир количественно появилось задолго до компьютерной революции. Но цифровые инструменты подняли датификацию на новый уровень. Мало того что мобильные телефоны могут отслеживать, кому мы звоним и куда идем, — те же данные дают возможность определить, что мы заболели. Вскоре они смогут дать понять, что мы влюблены.
Способность создавать что-то новое, успевать больше и делать все лучше и быстрее раскрывает огромную ценность данных, разделяя мир на победителей и проигравших. Основную (альтернативную) ценность информации обеспечит ее вторичное использование, а не только первичное, как принято считать. Таким образом, целесообразно собирать как можно больше самых разных данных и удерживать до тех пор, пока это содержит добавочную ценность, а также давать возможность анализировать данные тем, кто имеет больше возможностей раскрытия их ценности (при условии разделения полученной выгоды).
Успеха добьются компании, которые сумеют попасть в центр информационных потоков и научатся собирать данные. Для эффективного использования больших данных требуются технические навыки и хорошее воображение — мышление категориями больших данных. Основная ценность достанется тем, кто владеет данными. При этом важным активом может оказаться не только та информация, которая на виду, но и выбросы данных, полученные от взаимодействия людей с информацией. Используя такие выбросы с умом, компания улучшит существующую службу или запустит совершенно новую.
Большие данные таят в себе огромные риски. Они стирают правовые и технические ограничения, с помощью которых мы пытаемся сохранить конфиденциальность, тем самым выявляя неэффективность существующих основных технических и правовых механизмов. Раньше было хорошо известно, что относится к личной информации: имена, номера социального страхования, идентификационные коды и пр. Защитить такую информацию было относительно нетрудно, заблокировав ее. Сегодня даже с помощью самых безобидных данных, если их накоплено достаточно много, можно установить личность. Попытки придать данным анонимную форму или скрыть их уже неэффективны. Кроме того, установление слежки за отдельными лицами теперь влечет за собой более глубокое вторжение в частную жизнь, чем когда-либо, поскольку органы власти хотят увидеть не только как можно больше информации о человеке, но и как можно более широкий спектр его отношений, связей и взаимодействий.
Независимо от того, насколько большие данные угрожают конфиденциальности, существует другая уникальная и тревожная проблема. Ввиду того что прогнозы больших данных становятся все более точными, их можно использовать для наказания людей за прогнозируемое поведение, то есть действия, которые им предстоит совершить. Такие прогнозы невозможно опровергнуть в очевидной форме, поэтому никто не в силах себя оправдать. Наказание на этой основе отрицает понятие свободы воли и вероятность, пусть и небольшую, что подозреваемый выберет другой путь. Поскольку мы назначаем индивидуальную ответственность (и применяем наказание), человеческая воля должна быть неприкосновенна. Если будущее не оставит нам свободного поля деятельности, большие данные извратят саму суть человеческой природы: рациональное мышление и свободу выбора.
У нас пока нет надежных способов подстроить нормы и законы под специфику грядущего мира больших данных. Однако по мере постижения обществом их особенностей и недостатков его процветанию будут способствовать некоторые реформы. Мы в состоянии обеспечить свободный обмен информацией, учредив права исключения для данных, контролируя расстановку сил на рынке и поощряя государственные инициативы в поддержке идеи открытых данных. Мы можем расширить доступ к личной информации, установив способы ее приемлемого вторичного использования (для чего не понадобятся дополнительные разрешения), но в то же время ограничив сроки хранения и применения такой информации. Мы можем найти новые технические решения, например способы «размывания» признаков для установления личности. Прогнозы больших данных не должны служить назначению индивидуальной ответственности. Человеческая воля неприкосновенна. Наконец, людям нужно дать возможность исследовать алгоритмы и исходные данные, применявшиеся в ходе принятия решений, влияющих на их интересы (особенно если это влияние негативное). Для преодоления этой задачи необходимо новое поколение специалистов (алгоритмистов), призванных помочь анализировать и интерпретировать эффективность и законность инструментов и процессов обработки больших данных.
Большие данные станут неотъемлемой частью понимания и решения многих насущных глобальных проблем. Борьба с изменением климата требует анализа данных о загрязнении, чтобы понять, куда лучше всего направить усилия, и найти пути смягчения последствий проблем. Немыслимое количество датчиков, размещенных по всему миру (в том числе встроенных в смартфоны), позволяет моделировать ситуацию на более высоком уровне детализации. Улучшение структуры здравоохранения и снижение затрат на него, особенно в беднейших странах мира, станет значительной частью программы автоматизации процессов, которые в настоящее время нуждаются в человеческих суждениях, но могли бы выполняться компьютерами (например, изучение биопсии раковых клеток или обнаружение признаков инфекции до ее полного развития).
Большие данные уже использовались на благо экономического развития и предотвращения конфликтов. Так, данные о передвижении владельцев сотовых телефонов показали участки африканских трущоб, которые являются средоточием бурной экономической активности. Кроме того, большие данные дали возможность обнаружить общины с наиболее обострившейся межэтнической напряженностью и показали, чем может обернуться кризис беженцев140. Со временем большие данные станут использоваться все чаще, поскольку технология находит применение во всех сферах жизни.
Большие данные позволяют не только делать лучше то, что мы уже умеем, но и изобретать что-то новое. Однако это не волшебная палочка. Они не установят мир во всем мире, не приведут к искоренению нищеты или появлению нового Пикассо. С помощью больших данных невозможно произвести на свет младенцев, зато можно спасти преждевременно рожденных. Со временем большие данные наверняка войдут почти во все аспекты нашей жизни. Возможно, их отсутствие даже станет вызывать легкое беспокойство сродни тому, когда мы ожидаем от врача направление на рентген для выяснения того, что не удалось выявить путем обычного медицинского обследования.
Поскольку большие данные входят в нашу жизнь, они вполне могут влиять на наше представление о будущем. Около пятисот лет назад изменилось восприятие человечеством времени в рамках движения к более светской, научно обоснованной и просвещенной Европе141. На заре человечества время считалось циклическим понятием, как и сама жизнь. Каждый день (и год) был очень похож на предыдущий, и даже конец жизни напоминал ее начало, поскольку стареющие взрослые снова становились беспомощны, как дети. Когда стало преобладать линейное восприятие времени, мир предстал в виде развертывающейся вереницы дней — линии жизни, подвластной нашему влиянию. Если раньше прошлое, настоящее и будущее были слиты воедино, то теперь у человечества появилось прошлое, на которое можно оглянуться, и будущее, которого можно с трепетом ожидать, пока длится настоящее.
В то время как настоящее мы в силах формировать, будущее превратилось из чего-то абсолютно предсказуемого в нечто открытое и нетронутое — огромный пустой холст, который каждый мог заполнить в соответствии со своими ценностями и усилиями. Одна из характерных черт современности — то, что мы воспринимаем себя хозяевами своей судьбы, и это отличает нас от наших предков, для которых предопределенность в той или иной форме была нормой. Прогнозы больших данных делают полотно нашей жизни менее открытым, чистым и нетронутым. Наше будущее кажется в какой-то мере предсказуемым для тех, кто владеет технологией, чтобы это сделать. Похоже, это уменьшает нашу способность определять самим свою судьбу, а потенциальные возможности возлагает на алтарь вероятности.
В то же время большие данные могут означать, что мы всегда остаемся узниками своих предыдущих действий, которые модели прогнозирования используют против нас, претендуя на знание наших последующих действий: нам никогда не уйти от того, что случилось. «Прошлое — это лишь пролог», — писал Уильям Шекспир. Большие данные закрепляют это утверждение алгоритмически со всеми его достоинствами и недостатками. Но омрачит ли это нашу радость каждому восходу солнца или желание оставить в этом мире свой след?
Скорее всего, наоборот. Зная, что может произойти в будущем, мы примем надлежащие меры, чтобы предотвратить проблемы или улучшить результаты. Мы сможем заметить, кто из студентов начал «скатываться», задолго до выпускного экзамена. Мы выявим мельчайшие раковые опухоли и вылечим их, прежде чем они успеют разрастись. Мы узнаем о вероятности нежелательной подростковой беременности или преступности и сможем вмешаться, сделав все возможное, чтобы предотвратить вероятный исход. Мы предупредим пожары с потенциальными жертвами в многоквартирных зданиях Нью-Йорка, зная, какие из них проверить в первую очередь.
Ничто не предопределено, потому что мы всегда можем отреагировать на полученную информацию. Прогнозы больших данных не высечены на камне — это всего лишь наиболее вероятные результаты, а значит, при желании их можно изменить. Мы сами выбираем, как встретить и приручить будущее — словно Мори, отыскавший естественные пути среди огромной глади моря и ветров. Для этого не нужно понимать природу космоса или доказывать существование богов — достаточно больших данных.
Преобразуя свою жизнь с помощью больших данных — оптимизируя, улучшая, повышая эффективность и используя преимущества, — какую роль мы отводим интуиции, вере, неопределенности и новизне?
Большие данные учат нас тому, что более эффективные поступки и постоянное совершенствование, пусть и лишенные глубокого понимания, достаточно надежны. Твердо придерживаясь такого подхода, вполне можно преуспеть. Даже если вы не знаете, почему ваши усилия сказываются тем или иным образом, с большими данными вы добьетесь большего успеха, чем без них. Флауэрс и его напарники в Нью-Йорке, может, и не являются воплощением просвещенных мудрецов, но они и вправду спасают жизни. Так что большие данные не только повышают нашу эффективность, но со временем, вероятно, смогут дать то, что мы могли бы назвать мудростью.
Большие данные — нечто большее, чем холодный мир алгоритмов и автоматики. Существенную роль играют люди со всеми своими слабостями, заблуждениями и ошибками, поскольку эти черты — неотъемлемая часть творчества, интуиции и гениальности человека. Одни и те же беспорядочные умственные процессы ведут как к унижениям или упорству в заблуждениях, так и к успехам и обретению величия. Это наводит на мысль, что следует приветствовать некоторую неточность как своего рода часть человеческой природы, так же как мы учимся охватывать беспорядочные данные, поскольку они служат большой цели. В конце концов, беспорядочность является важным достоянием мира и нашего мышления. Принять ее и считаться с ней — значит получить преимущества.
Вы спросите, какой толк от людей в условиях, когда решения опираются на данные, а интуиция противоречит фактам? Если бы все обращались к данным и использовали соответствующие инструменты, возможно, критическим отличием стал бы элемент непредсказуемости — человеческий фактор интуиции, риска, случайностей и ошибок.
В таких условиях неизбежно придется выкроить место для человека — его интуиции, здравого смысла и прозорливости, чтобы их не заглушили данные и машинные ответы. Главное преимущество человека заключается в том, чего не могут уловить и показать алгоритмы и кремниевые микросхемы, поскольку это нельзя выразить в виде данных. Мы имеем в виду не то, что есть, а то, чего нет, будь то пустое пространство, трещина в тротуаре или невысказанная либо пока еще не сформировавшаяся мысль.
Человеческий фактор имеет огромное значение для достижения прогресса в обществе. Большие данные означают, что мы можем экспериментировать быстрее и исследовать больше инициатив, при этом создавая больше инноваций. Искра изобретения — то, о чем не узнаешь из данных, и то, что не удастся подтвердить при любом их количестве, поскольку речь идет о том, чего пока не существует. Если бы Генри Форд спросил большие данные, чего хотят его клиенты, они бы ответили — более быстрых лошадей (мы перефразировали его крылатую фразу). В мире больших данных будут поощряться такие человеческие качества, как творчество, интуиция, риск и интеллектуальные амбиции, ведь наша изобретательность — источник прогресса.
Большие данные являются как инструментом, так и ресурсом и предназначены в большей степени информировать, чем объяснять. Они ведут людей к пониманию, но все еще могут вызывать недоразумения в зависимости от того, как с ними обращаться. Какими бы ослепительными ни были возможности больших данных, мы не должны позволять, чтобы их соблазнительный блеск затмил свойственные им недостатки.
Мы никогда не сможем собрать, сохранить или обработать всю совокупность мировой информации — максимальное количество «N = всё» — с помощью существующих технологий. Лаборатория физики элементарных частиц ЦЕРН в Женеве собирает менее 0,1% информации, которая создается в процессе экспериментов, а остальное рассеивается, как дым, вместе с сопутствующими знаниями142. Но это вряд ли новая истина. Общество всегда было ограничено в инструментах, используемых для измерения и познания действительности — от компаса и секстанта до телескопа, радара и, наконец, GPS. Наши инструменты завтра могут стать вдвое, десятикратно или даже в тысячу раз мощнее, чем сегодня, основательно снизив значимость наших нынешних знаний. В скором времени наш мир больших данных покажется чем-то столь же забавным, как память 4 Кб бортового управляющего компьютера «Аполлон-11»143.
Мы всегда сможем собирать и обрабатывать лишь малую часть совокупной всемирной информации, и она может быть только подобием действительности, словно тени на стенах пещеры Плато. Поскольку информация не бывает идеальной, наши прогнозы так или иначе подвержены ошибкам. Но это не означает неправильности данных — просто они не бывают полными. Такое положение вещей не отрицает открытий со стороны больших данных, но все расставляет по местам. Большие данные не дают окончательных ответов, но и те, что есть, дают нам возможность дождаться лучших методов и, следовательно, лучших ответов. А между тем нам следует использовать большие данные с большой долей беспристрастности... и человечности.