Бинарная наука
Взрывное расширение дигитализации, происходящее в последнее время, производит сильное впечатление, однако насколько оно важно? Действительно ли все эти экза- и зеттабайты цифровых данных полезны? Да, они невероятно полезны. Одна из главных причин, которые позволяют нам считать дигитализацию основной силой, формирующей вторую эру машин, состоит в том, что дигитализация улучшает процесс овладевания знанием. Она обеспечивает легкий доступ к огромным массивам данных, а данные – это источник жизненной силы науки. В данном случае под «наукой» мы понимаем работу над формулированием теорий и гипотез и их последующую проверку (говоря менее формально, мы делаем догадки о том, как что-то работает, а потом проверяем, верны ли они).
Некоторое время назад Эрик предположил, что данные поиска в интернете могут сигнализировать о будущих изменениях в ценах на недвижимость и объеме ее предложения по всей стране. Он исходил из того, что если семейная пара собирается переехать в другой город и купить там дом, то супруги вряд ли надеются провернуть это за пару дней. Они начнут собирать нужную информацию заранее, за несколько месяцев до переезда. В наши дни поиск такой первоначальной информации в интернете происходит постоянно: вы начинаете с того, что вбиваете в поисковой строке «риелтор в Финиксе», «районы Финикса» или просто «цена дом две спальни Финикс».
Чтобы протестировать свою гипотезу, Эрик поинтересовался у Google, может ли он получить данные по статистике поиска. Ему ответили, что никакого специального разрешения здесь не требуется и что эти данные бесплатно доступны онлайн. Эрик и его аспирант Линн Ву (оба – совсем не специалисты в области экономики недвижимости) построили простую статистическую модель, чтобы изучить данные, использующие контент, создаваемый пользователями в ходе их поисковых запросов через Google. Их модель связывала изменения в количестве поисковых запросов определенного рода с последующими изменениями цен на недвижимость и предсказывала, что если количество запросов, подобных описанным выше, сегодня выросло, то цены на дома и объем предложения в Финиксе будут расти в ближайшие три месяца. Оказалось, что эта простая модель вполне работает: фактически она предсказывала уровень продаж на 23,6 % точнее, чем прогнозы, публикуемые экспертами Национальной ассоциации риэлторов.
Подобных же успехов при использовании доступных цифровых данных добиваются и исследователи в других областях. Команда под руководством Руми Чунара из Гарвардской медицинской школы исследовала пути распространения холеры после землетрясения 2010 года на Гаити и выяснила, что информация об эпидемии в «Твиттере» была не менее точной, чем данные официальных отчетов; кроме того, эта информация появлялась как минимум на две недели раньше. Ситарам Асур и Бернардо Губерман из Лаборатории социальной инженерии компании Hewlett Packard обнаружили, что твиты могут также использоваться для прогнозирования дохода от проданных билетов в кинотеатры. По словам ученых, их исследование «наглядно продемонстрировало, как социальные сети отражают коллективную мудрость, которая, если ее направить в нужное русло, может чрезвычайно мощно и точно предсказывать, что произойдет в будущем».
Дигитализация может также помочь нам лучше понимать прошлое. Так, по состоянию на март 2012 года компания Google отсканировала свыше 20 миллионов книг, опубликованных за несколько столетий. Этот огромный массив цифровых слов и фраз формирует основу для так называемой культуромики, или «применения техники сбора данных с высокой пропускной способностью и их анализа для изучения человеческой культуры». Команда профессионалов из нескольких отраслей под руководством Жана-Батиста Мишеля и Эреца Либермана Эйдена проанализировала свыше 5 миллионов книг, опубликованных на английском языке начиная с 1800 года. Помимо прочего, они обнаружили, что количество слов в английском языке за период между 1950 и 2000 годами выросло более чем на 70 %, что прославиться в наши дни можно быстрее и легче, чем в прошлом (но и проходит эта слава быстрее), и что в XX веке интерес к вопросам эволюции стабильно снижался до тех пор, пока Уотсон и Крик не открыли структуру ДНК.
Все это – примеры более ясного понимания и точного предсказания (или более качественной науки), возникшие благодаря дигитализации. Хэл Вариан, главный экономист Google, многие годы изучал это явление. Он также умеет отлично описывать то, что видит. Одно из наших любимых высказываний Вариана звучит так: «Я утверждаю и буду утверждать, что самой модной и привлекательной профессией в следующие 10 лет будет статистика. И я не шучу». Когда мы видим объемы постоянно создающихся цифровых данных и думаем о том, сколько еще открытий при их исследовании нас ожидает, то не можем не согласиться с ним.