Книга: Просчитать будущее: Кто кликнет, купит, соврет или умрет
Назад: Глава 2. С властью приходит ответственность
Дальше: Глава 4. Машина, которая учится
ГЛАВА 3

Эффект данных
Данные говорят всегда!!!

Мы тонем в потоках данных, но сколько полезного знания мы добываем из этого сырья? Что наделяет его прогнозной силой? Способны ли данные раскрыть нам такую важную вещь, как коллективные настроения человеческих масс? И как наша эмоциональная болтовня на просторах Интернета соотносится с подъемами и спадами нашей экономики?

Данные об эмоциях и эмоции по поводу данных

Эмоции не всегда подвластны непосредственно разуму, но они всегда подвластны непосредственно действию.

Уильям Джеймс

В 2009 году двое исследователей из Университета Иллинойса обнаружили удивительную взаимосвязь между нашими коллективными эмоциями и коллективным поведением. В этой работе ученые пытались ответить на вопрос, что первично — эмоции или действия.

Возникают ли эмоции благодаря нашим действиям:

picture

Или действия следуют за нашими эмоциями:

picture

Конечно, это работает в обоих направлениях. В окружающем мире происходит много того, что вызывает у нас эмоциональную реакцию. Ваш клиент отменяет заказ, и вы чувствуете разочарование. С другой стороны, ваши эмоции влияют на ваше поведение. У вас замечательное настроение, и вы решаете дать своему ленивому автомеханику еще один шанс.

Эмоции обычно не попадают в сферу интересов прогнозной аналитики. Чувства и эмоции не относятся к разряду конкретных вещей, которые легко можно свести в таблицу, как факты и цифры. Они эфемерны и субъективны. Хотя они являются важнейшим элементом человеческой природы, их специфичность ставит их вне досягаемости большинства точных наук. Говорят, что некоторые ученые испытывают эмоции (по крайней мере я об этом где-то читал), но есть опасение, что попытка их измерить или формально определить может либо оказаться непосильной задачей, либо лишить эмоции их священного статуса и вообще все испортить. И если фанатичные нейробиологи в обмен на бесплатную пиццу увлеченно подключают провода к головам своих студентов, многие аналитики данных считают, что прикладная прогнозная аналитика далека от любых эмоций и не нуждается в их исследовании.

Полные решимости преодолеть разрыв между этими двумя мирами, двое амбициозных ученых из Иллинойса — в то время докторант Эрик Гилберт и его научный руководитель Кэрри Карахалиос — приняли вызов. Они решили выйти за рамки изучения индивидуальных эмоций и научиться оценивать коллективные эмоции, настроения, которые испытывает население целой страны, а также попытаться установить взаимосвязь между эмоциями и поведением широких человеческих масс. Трудность состояла в том, что до сих пор никто не знал, как можно оценить коллективные эмоции.

Более того, Эрик и Кэрри поставили перед собой цель научиться оценивать коллективное эмоциональное состояние на основе спонтанной человеческой деятельности, происходящей в реальном мире, а не в научной лаборатории. Но как это сделать? Телепатия и ясновидение не в счет. Да, люди любят выражать свои настроения в письменной форме, но такие источники письменных материалов, как газеты и журналы, создают очень ограниченную картину и с неким запозданием. Поэтому исследователи обратились к другому общедоступному ресурсу — блогам.

Через блоги наши мысли и эмоции разносятся по всему белу свету. Блоги превращают задумчивых интровертов, тайно пишущих в «свой дорогой дневник», в публичные личности. Многочисленный хор голосов свободно выражает свое мнение, не стесненный ни определенными целями, ни какими-либо ограничениями. Публикуя примерно 864 000 постов в день, эти авторы осуждают, плачут, смеются, жалуются и протестуют. Блогосфера состоит из армии добровольцев, которые говорят от нашего имени. В той мере, в которой настроения блогеров отражают настроения населения в целом, можно сказать, что мы, человеческая раса, коллективно не отличаемся эмоциональной сдержанностью.

Прогнозирование настроений на основе записей в блогах

Если вы меня уколете, у меня не произойдет… утечки?

Робот-андроид Коммандер Дейта, сериал «Звездный путь: Новое поколение»

Занимаясь поиском способов, как научиться «считывать» настроения с многочисленных блогов, исследователи сосредоточились на страхе и тревоге. Из всего спектра эмоций тревога является одним из наиболее мощных двигателей нашего поведения. Изучив психологическую литературу, Эрик и Кэрри пришли к выводу: страх делает людей не расположенными к риску. Спокойствие (отсутствие тревоги) дает нам свободу делать то, что нравится. Но страх превращает людей в консерваторов, заставляя отказываться от рискованных действий.

Первым делом нужно было научиться выявлять тревожные настроения в отдельных записях в блогах. Расшифровка экспрессивного языка блогеров — непростая задача для компьютера. Чтобы решить ее при помощи прогнозной аналитики, нам требуется большое количество примеров записей с очевидным присутствием или отсутствием изучаемой эмоции. Это будет тем самым массивом данных, на основе которых прогнозная модель научится отличать записи, передающие чувство тревоги, от записей, передающих спокойствие.

Эрик и Кэрри обратились к блог-ресурсу «Живой журнал» (Livejournal), который дает блогерам возможность маркировать каждый пост одним из 132 настроений: зол, занят, пьян, подавлен, спокоен, радостен и т.д. (Разумеется, эмоциональный мир человека гораздо богаче, но тем не менее…) Чтобы придать своим записям еще одно измерение — экспрессивность, пользователи могут дополнить их маленькими смешными иконками настроений, передающими эмоции. Например, изображение испуганного лица с широко открытыми глазами означает «я встревожен».

Таким образом, этот необычный блог-ресурс ценен тем, что соединяет человеческую речь со стоящими за ней чувствами. Наша речь дает возможность выражать наши эмоции сколь угодно неявно и неоднозначно, а порой и вообще скрывать их, поэтому, как правило, у нас нет прямого доступа к субъективным внутренним переживаниям автора.

Применение ПА: выявление чувства тревоги в записях в блогах

  1. Предмет прогнозирования: какие записи в блогах выражают тревогу.
  2. Цель прогнозирования: рассчитать совокупный показатель массового настроения.

В распоряжении исследователей имелось более 600 000 записей в блогах за 2004 год, каждую из которых авторы отметили иконкой настроения. Записи с такими настроениями, как обеспокоен, встревожен, нервничаю или боюсь (всего около 13 000), рассматривались как тревожные, а остальные как не тревожные. При помощи этих обучающих данных были сгенерированы прогнозные модели, способные определять, является ли запись в блоге тревожной или нет:

picture

Большинство записей в «Живом журнале» (и других блог-ресурсах) не содержат меток настроения — и, следовательно, именно они нуждаются в применении прогнозной модели. Блогеры редко открыто выражают свои эмоции и настроения, поэтому их нужно распознавать косвенным путем, исходя из того, что они пишут. Этой цели и служит прогнозная модель. Как всегда, ее функция заключается в расчете прогнозной скоринговой оценки для индивидуальных случаев, ответ для которых неизвестен:

picture

При всей невероятной сложности человеческой речи прогнозные модели для выявления чувства тревоги следуют относительно простой процедуре, основанной на подсчете ключевых слов и применении некоторых арифметических операций. Модели не пытаются «понять» смысл записей в блогах. Например, одна из сгенерированных моделей выявляет тревожные записи на основе наличия таких слов, как нервничаю, боюсь, собеседование и больница, и, наоборот, отсутствия таких слов, которые характерны для не тревожных записей, а именно вау!, круто и люблю.

Хотя и в грубом приближении, эти прогнозные модели для выявления чувства тревоги обещают открыть нам дверь к пониманию настроения масс. Несмотря на то, что им удается обнаруживать всего от 28 до 32% всех опубликованных за день тревожных записей, даже при таком проценте обнаружения они могут сослужить хорошую службу. Что важно, так это относительная распространенность тревожных записей в блогах в любой отдельно взятый день. Например, если количество тревожных записей удваивается по сравнению с предыдущим днем, не важно, что модель выявляет всего 30% тревожных записей от общего числа — относительное изменение будет таким же, как и при 100%-ном выявлении. При этом модели демонстрируют довольно высокую точность: доля не тревожных записей, ошибочно отмеченных как тревожные, не превышает всего 3–6%.

Индекс тревоги

Страх всегда рядом со мной. Мой страх, вот чего я боюсь.

Из фильма Мела Брукса «Страх высоты»

Теперь Эрик и Кэрри могли смело спрашивать мир: «Как ты чувствуешь себя сегодня?» Чтобы ответить на этот вопрос, они разработали Индекс тревоги (иногда его называют Индексом страха), основанный на распространенности тревожных записей в блогах в отдельно взятый день. Он отражает уровень массовой тревожности и рассчитывается ежедневно. Другими словами, разработанная исследователями система рассматривает все население как единый субъект для психометрического анализа и оценивает состояние коллективной души. Это своего рода «измеритель духа времени» или, как называют его Эрик и Кэрри, «алгоритмическая модель для оценки совокупного настроения миллионов людей». Человеческим массам, как и отдельным людям, свойственны перепады настроений: бывают периоды, когда мы расслаблены и спокойны, а бывают, когда мы поддаемся пессимистическому настрою.

«Живой журнал» — сбалансированный источник данных для ежедневного расчета Индекса тревоги. Эрик и Кэрри говорят, что это «место подобно личному дневнику, где люди записывают события повседневной жизни и собственные мысли». Это не некая специализированная выборка, а срез всего общества, включая домохозяек и старшеклассников.

Визуализация коллективных настроений

Дальнейшие исследования, основанные на работе Эрика и Кэрри, сосредоточены на представлении того, как меняются коллективные настроения. Например, исследователи из Университета Индианы разработали похожий метод оценки коллективного настроения на основе ключевых слов. Они рассчитывают два показателя: по шкале «спокойствие–тревога» (аналогичный Индексу тревоги, но перевернутый таким образом, что положительные значения указывают на спокойствие, а отрицательные — на тревогу) и по шкале «счастье–несчастье». Опираясь на посты в Twitter, а не на блоги, они получили следующую картину коллективных настроений с октября 2008-го по декабрь 2008 года:

picture

Как видно из графика, мы — весьма капризное общество, подверженное резким сменам настроений. Показанный на графике период времени охватывает президентские выборы в США и День благодарения. На следующий день после выборов мы погружаемся в умиротворенное спокойствие, а в День благодарения испытываем приступ счастья.

Но каким будет наше коллективное настроение в эти особые дни, можно предсказать и без помощи науки. Зачем нужны вышеуказанные прогнозные модели? С чисто научной точки зрения созданный Эриком и Кэрри Индекс тревоги является любопытной инновационной разработкой, но это автоматически не говорит о его практической ценности. Исследователи постарались обосновать полезность своей модели (в противном случае о ней бы быстро забыли), найти доказательства того, что рассчитываемый ими индекс наших субъективных настроений объективно связан с чем-то реальным и конкретным. Без доказательства того, что выдаваемый системой результат соответствует событиям в реальном мире, невозможно было утверждать, что им удалось создать работоспособную модель для оценки коллективных настроений, и их система могла навсегда сохранить статус «всего лишь кучки цифр».

Подтвердите свои слова деньгами

При столкновении с неопределенностью инстинктивная реакция людей — сократить расходы, изъять деньги, уйти из бизнеса… а это означает падение экономической активности.

Алан Гринспен

Эрик и Кэрри возлагали надежды на один из ключевых триггеров наших эмоций: деньги. Деньги являются особой мерой нашего жизненного успеха, поэтому можно с уверенностью ожидать, что наше эмоциональное и финансовое благополучие тесно связаны между собой. Классическое психологическое исследование, проведенное в 1972 году, показало, что даже простая находка монеты в телефонной будке резко увеличивает нашу благожелательность и доброту. «Бесплатные деньги!» — и мы счастливы. Можно сказать, что все сводится к чувствам, даже деньги. При более циничном подходе можно задать прямо противоположный вопрос: не сводится ли все к деньгам? Как бы там ни было, очевидно одно: между эмоциями и деньгами есть взаимосвязь, и именно она позволит Эрику и Кэрри доказать практическую ценность своей модели.

Источником вдохновения для исследователей послужил известный экономист и бывший председатель Федеральной резервной системы Алан Гринспен, произнесший пророческие слова на «Ежедневном шоу Джона Стюарта» в сентябре 2007 года. Он сказал следующее: «Если бы я нашел способ определять, как меняются настроения людей — в сторону страха или в сторону эйфории… на основе одного этого я мог бы прогнозировать состояние экономики лучше, чем при помощи любого другого известного мне метода. Беда в том, что мы не умеем определять настроения масс».

Эта мысль поразила их. Кэрри рассказывает: «Эрик говорил об интервью Гринспена как безумный. Он был по-настоящему взволнован, потому что теперь у нас появилась уверенность в том, что мы сможем это сделать!»

Фондовый рынок был идеальным испытательным полигоном для проверки их Индекса тревоги на практике. Правильность показателя коллективного настроения может быть подтверждена только тогда, когда есть зарегистрированный показатель коллективных действий, с которым его можно соотнести. Чтобы эмпирически решить дилемму «курица или яйцо» (т.е. эмоции порождают действия или действия — эмоции), экономика предлагает наилучшую площадку для наблюдений за колебаниями оптимизма и пессимизма в человеческом обществе в целом.

Помимо чисто научного интереса вырисовывалась еще одна заманчивая перспектива: возможность прогнозирования фондового рынка. Если окажется, что коллективные эмоции определяют дальнейшее движение фондового рынка, то для прогнозирования его динамики можно будет использованы считанные с блогов показания об уровне коллективной тревожности. Такого рода новый прогнозный инструмент потенциально мог позволить заработать миллионы.

Вдохновение и труд

Гений — это один процент вдохновения и девяносто девять процентов труда.

Томас Эдисон

Эрик и Кэрри закатали рукава. Эрик собрал данные о ежедневных ценах закрытия индекса S&P 500 (популярного индекса, служащего индикатором широкого рынка американского акций) за несколько месяцев в 2008 году и приступил к сопоставлению хаотичного, как кажется, движения рынка со значениями Индекса тревоги за тот же период времени. Может быть, между этими двумя индексами и нет никакой взаимосвязи?

Подтверждение действенности барометра массовых настроений стало бы настоящим прорывом для науки о данных, социологии и даже для психологии. Но быть первопроходцем всегда опасно, а тем более шагать в авангарде научных исследований. Двигаясь по совершенно новой территории, вы можете быть в дюйме от триумфа или полного провала и даже не подозревать об этом. Как выразилась Кэрри: «Для нас это была абсолютно чужая, неизведанная территория. Но, если вы хотите сделать что-то новое, вам нужно выйти за пределы вашей комфортной зоны».

Доказать работоспособность Индекса тревоги оказалось непростой задачей. Представьте себя врачом-психиатром, пациент которого — целый мир. Первоначально Эрик и Кэрри предполагали, что им потребуется месяц, чтобы получить убедительные результаты, но многочисленные попытки не увенчались успехом. Они встречались с экспертами из различных отраслей науки, таких как математика, статистика и экономика. Они консультировались с аналитиками Уолл-стрит. Но на той неосвоенной территории, через которую они пытались проложить путь, не было никаких надежных ориентиров в виде устоявшихся научных знаний. Кэрри говорит: «Долгое время мы двигались буквально на ощупь — не существовало никаких общепринятых методик». Через полтора года упорного труда Эрик и Кэрри так и не достигли цели — они не получили достаточно убедительных результатов, чтобы оправдать публикацию.

На карту было поставлено многое, Эрик и Кэрри даже начали сомневаться в осуществимости своего проекта. Встал вопрос, не стоит ли отказаться от дальнейших усилий и положить конец убыткам. Даже если в общем и целом их теория верна и настроение масс действительно может предсказывать движение фондового рынка, насколько правильно их Индекс тревоги измеряет коллективную эмоциональную динамику?

Но внезапно надежда вспыхнула вновь. Изучая графики визуального представления данных, они придумали новую тактику.

Золото в мусорных кучах данных

Что для одного человека мусор, для другого — сокровище.


Но, прежде чем рассказать об открытии Эрика и Кэрри, давайте рассмотрим разработанный ими Индекс тревоги в более широком контексте — как способ добыть золото полезных знаний из «мусорной кучи» данных.

Можно сказать, что подход Эрика и Кэрри к анализу блогов дает груды нерелевантной информации. Люди пишут в блогах все, что взбредет им в голову. Если кто-то публикует пост: «Сегодня у меня потрясающее настроение! И я хочу поделиться им с вами», — это интересует только его друзей и членов семьи и не представляет собой никакой ценности для остального мира. Такие посты адресуются к некой воображаемой аудитории подобно тому, как программы поиска внеземного разума транслируют сигналы в космическое пространство в надежде когда-нибудь где-нибудь достичь, быть может, ушей разумных негуманоидов, если таковые существуют. Блогеры точно так же кричат в пустоту.

Как и в большинстве других случаев прикладного применения прогнозной аналитики, система Эрика и Кэрри перепрофилирует назначение данных. Каковы бы ни были предполагаемые цели и целевые аудитории блогеров, они обеспечивают бесценный кладезь сырых данных, которые лежат мертвым грузом до тех пор, пока кто-нибудь не предложит новый неординарный способ их интерпретации, позволяющий обнаружить сокрытый в них новый смысл и понимание. Другими словами, аналитики данных подобны тем самым долгожданным разумным инопланетянам (шутки в сторону), которые сумели успешно расшифровать сигналы человеческой расы.

Перепрофилирование данных в ПА — это своего рода глобальная новаторская инициатива по повторному использованию отходов. Точно так же, как Соединенные Штаты осознали, что могут не выбрасывать миллионы тонн куриных окорочков, а продавать их в Китай, мы находим все новые удивительные способы применения накопленным нами феноменальным массивам нолей и единиц. Кальмаров раньше выбрасывали из сетей как мусор; выжимки, из которых сегодня производится белый шоколад, полностью шли в отходы. Моя мама Лайза Шамберг создает произведения фотографического искусства из компоста, запечатлевая красоту, присущую органическим отходам. Ученые хотят найти применение ядерным отходам. Могу вас заверить, что аналитики данных — такие же сумасшедшие фанатики.

Выросший на телепередачах «Улица Сезам», я обожал зеленого монстра Оскара Ворчуна, живущего в мусорном баке и воспевающего хвалы мусору. Оказалось, Оскар Ворчун не такой уж и дурак.

Если блогосферу можно сравнить с огромным уличным граффити, где каждый рисует что попало, то же самое можно сказать и о супермассивах данных, которые собираются и хранятся различными организациями и их функциональными подразделениями. Это октиллионы тонн человеческих отходов, которые, к счастью, ничем не пахнут. Что общего между Скарджо (прозвище Скарлетт Йоханссон), Рейкьявиком, борщом и данными? Во всех этих случаях под неприглядным названием скрывается нечто замечательное.

Бóльшая часть данных собирается вовсе не с целью прогнозирования, но ПА способна учиться на этих записях о реальных событиях точно так же, как человек учится на накопленном жизненном опыте. В качестве простого примера возьмем два вида данных о клиентах, которые обычно собираются компаниями, — адрес электронной почты и членский статус. Эти данные не просто утилитарны, они обладают серьезным прогнозным потенциалом. В ходе реализации одного проекта я обнаружил, что пользователи, которые при регистрации на сайте указывают адрес электронной почты на Earthlink.com, в пять раз чаще переходят с бесплатного пробного членства к платному премиум-членству, чем пользователи, указывающие адрес на Hotmail.com. Это может быть потому, что те, кто разглашает сведения о своем основном почтовом ящике, в среднем более привержены своим действиям и, соответственно, склонны продлевать пробную подписку. Но какой бы ни была причина, такое открытие помогает компании предсказать, кто из пользователей может стать выгодным платным клиентом.

В одной из своих эстрадных комедий в далеких 1970-х Стив Мартин произнес пророческую шутку: «Я изобрел способ превращать собачьи фекалии в золото. Поэтому, если увидите, что я ползаю на коленях и принюхиваюсь к вашим ботинкам, вы все поймете. Я… учуял… золото». Некоторые массивы данных представляют собой еще бóльшие мусорные свалки, чем вы можете себе вообразить. Ларри Смарр, директор исследовательского центра при Калифорнийском университете, отслеживает все функции человеческого организма, в том числе и выделение экскрементов, чтобы создать точную компьютерную модель тела как экосистемы. «Вы когда-нибудь задумывались над тем, насколько богаты информацией ваши фекалии? В каждом их грамме содержится около 100 млрд бактерий. Каждая бактерия имеет ДНК… Это означает, что информационная емкость человеческого кала составляет порядка 100 000 терабайт информации на один грамм».

Эпоха тотальных измерений

Выражайте в цифрах все доступное выражению в цифрах, измеряйте все измеримое, а неизмеримое делайте измеримым.

Галилео Галилей

Нематериальные явления и факторы, представляющиеся абсолютно неизмеримыми, измерить можно.

Дуглас Хаббард. Как измерить все, что угодно

Некоторые историки утверждают, что вслед за аграрной и промышленной революциями сегодня мы переживаем информационную. Я согласен с этим. А ведущий аналитик данных из IBM Колин Ширер красноречиво заявляет, что ключом к информационной революции является «тотальное измерение». Каждый сделанный вами шаг, онлайн или офлайн, во все большей и большей степени регистрируется и сохраняется в базе данных: проведенные банковские транзакции, посещенные веб-сайты, просмотренные фильмы, нажатые ссылки, сделанные друзьям звонки, опубликованные посты, перенесенные стоматологические процедуры, выигранные спортивные состязания (если вы профессиональный спортсмен), дорожные видеокамеры, мимо которых вы проехали, совершенные авиаперелеты, отредактированные статьи в «Википедии», пережитые землетрясения. Измерительные приборы окружают нас повсеместно. Мобильные устройства, роботы и грузовые контейнеры регистрируют перемещения, взаимодействия, товарные запасы и уровень радиации. Персональные датчики контроля здоровья отслеживают основные показатели нашей жизнедеятельности и физическую нагрузку. Массовый переход от приложений на персональных компьютерах к облачным сервисам (программное обеспечение как услуга) позволяет организациям собирать еще больше данных о вашем использовании компьютера.

В области бесплатных общедоступных данных также наблюдается взрывной рост, поэтому все богатство знаний находится рядом — стоит лишь протянуть руку. Благодаря движению за открытые данные, часто исповедующему философию некоммерческого доступа к данным как общественного блага, сегодня в Интернете можно получить свободный доступ к наборам данных в таких областях, как биоразнообразие, бизнес, картография, химия, геномика и медицина. По адресу www.kdnuggets.com/datasets находится один из наиболее обширных перечней ресурсов, предлагающих открытые базы данных. В 2009 году Федеральный директор по информационным технологиям США запустил сайт Data.gov «с целью расширения доступа общественности к высокоценным, машиночитаемым наборам данных, генерируемым правительством США». Data.gov предлагает доступ к более чем 390 000 наборам данных, в том числе о морских авариях, загрязнении окружающей среды, действующих шахтах, землетрясениях и коммерческих авиарейсах. И эта база данных будет расти: выпущенная в 2009 году директива обязывает все федеральные агентства США разместить в ней по крайней мере по три «высокоценных» набора данных.

Если уйти от сферы государственных услуг, можно обратить внимание на другой массив данных, отвечающий на более интимный вопрос: «Вы уже получаете удовольствие?». Я разработал для сайта знакомств систему прогнозирования онлайн-флирта. Ведь, как свидетельствуют данные, вероятность удержать вас как клиента гораздо выше, если уделить вам некоторое позитивное внимание. А когда дело доходит до прогнозирования человеческого поведения, что может быть более фундаментальным, чем наши брачные ритуалы? В созданной мною модели такие действия в виртуальном мире, как «подмигнуть», сообщение или запрос на добавление в «друзья», рассматриваются как флирт. Разработав своего рода электронный журнал-таблоид, я сгенерировал ряд отчетов, например, касательно среднего времени ожидания, прежде чем на флирт ответят взаимностью, в зависимости от характеристик клиента. Например:

picture

Чтобы развлечь вас, вот кусок реального кода из короткой 175-строчной компьютерной программы под названием «Flirtback» («Взаимный флирт»), написанной мной на старом добром языке программирования AWK:

sex = sexuality [flirt_to]; # sexual orientation
sumbysex [sex] += (delta / (60*60));
nPairsSex [sex] ++

Согласитесь, что столь увлекательная тема заинтересует любого программиста.

Данные выражают голую суть человеческого поведения. Разумеется, цифры не могут в полной мере передать всей его сложности и подчас присущих ему скрытых смыслов — но и этого достаточно. Организации регистрируют те аспекты наших действий, которые важны для их функций, выполняя в процессе накопления сырья для ПА невероятно трудную задачу: абстрагироваться от бесконечной сложности повседневной жизни и выделить из бесчисленного множества деталей именно те, что имеют для них значение.

Так открывается новое окно в мир. Профессор экономики Эрик Бриньолфссон из Массачусетского технологического института сравнивает сегодняшние технологии измерения человеческого поведения с другим историческим прорывом в научных наблюдениях. «Изобретенный четыре сотни лет назад микроскоп дал людям возможность видеть и измерять то, что ранее им было недоступно, — на клеточном уровне, — написала The New York Times, объясняя точку зрения Бриньолфссона. — Сегодня произошла революция в измерениях. Измерения посредством сбора данных — это современный эквивалент микроскопа». Но вместо того чтобы рассматривать вещи, ранее бывшие слишком мелкими для изучения, теперь мы рассматриваем вещи, ранее бывшие для нас слишком крупными.

Задраить люки: мы тонем в данных

Ты не айсберг, а всего лишь верхушка,
Поэтому ты не можешь пробить днище моего корабля.

Из песни «Way Down Deep» Джона Форстера

На Земле находится более 358 млн трлн галлонов воды.

Из телевизионной рекламы питьевой воды Ice Mountain

Сегодня в мире фотографий больше, чем кирпичей.

Джон Жарковски, директор отдела фотографического искусства в Музее современного искусства (1976 год)

Все эти измерительные системы обрушивают на нас потоки данных. Те мириады блогов, которые планировали использовать Эрик и Кэрри, были всего лишь верхушкой айсберга — причем какого айсберга! Ежеминутно в блогах публикуется 600 постов; в 2011 году насчитывалось более 100 млн блогов на одних только сервисах WordPress и Tumblr. Что касается Twitter, то: «Каждый день в мире пишется столько твитов, что по объему это эквивалентно книге на 10 млн страниц или 8163 копиям романа Льва Толстого “Война и мир”», — говорится в официальном блоге Twitter. Если сложить все эти книги одна на другую, «получится стопка высотой примерно 450 метров, что почти равняется по высоте тайваньскому небоскребу «Тайбэй-101», второму самому высокому зданию в мире».

На YouTube каждую секунду загружается один час нового видео. По оценкам, количество веб-страниц во Всемирной паутине превышает 8320 млрд. Каждый час онлайн совершаются миллионы розничных транзакций. Ежедневно делается больше фотографий, чем за первые 100 лет после изобретения фотографии, а за две минуты — больше, чем за весь XIX век; на один только Facebook ежедневно загружается около 200 млн фото. Фемтокамеры делают триллион кадров в секунду, что позволяет улавливать движение света и «заглядывать за угол». Четыреста миллионов мобильных устройств собирают статистику использования; к 2020 году их будет 50 млрд.

Такой рост стал доступным благодаря стремительному снижению стоимости хранения данных. Стоимость одного гигабайта памяти на жестком диске экспоненциально убывала после 1980-х годов, когда она составляла порядка $1 млн. К 2010 году она упала до 10 центов. Сегодня мы можем позволить себе никогда ничего не удалять.

Разведывательные службы стараются хранить все добытые ими сведения. Новый Центр данных в штате Юта стоимостью $2 млрд, принадлежащий Агентству национальной безопасности США и в пять раз превышающий по размеру здание конгресса США, предназначен для хранения гигантских архивов данных о взаимодействиях людей, в том числе полные записи телефонных разговоров и сообщения электронной почты.

Ученые также собирают все больше данных, тем самым радикально меняя собственные парадигмы. Астрономы строят новую систему радиотелескопов, которая будет генерировать эксабайт информации в день (один эксабайт равен квинтиллиону байтов; байт — это единица объема информации, которая может принимать 256 различных значений и часто соответствует одной букве, цифре или знаку препинания). При помощи спутников защитники дикой природы отслеживают передвижение скатов манта, находящихся под угрозой вымирания, которые могут путешествовать более 1000 км в поисках пищи. Как предвещает знаменитый футуролог Рэймонд Курцвейл, принимая во внимание снижение стоимости картирования человеческого генома с 1 млрд до нескольких тысяч долларов, информационные технологии станут главным инструментом, при помощи которого в этой области будет достигнут значительный прогресс.

Объемы накаливаемых в мире данных увеличиваются с непостижимой скоростью, по оценкам, на 2,5 квинтиллиона байтов (эксабайта) в день. Квинтиллион — это единица с 18 нулями. Если бы в 1986 году все хранящиеся на компьютерах данные вы распечатали на листах бумаги с двух сторон, ими можно было бы покрыть всю поверхность суши на Земле одним слоем; в 2011 году вы бы покрыли всю сушу двумя слоями таких листов.

Это экспоненциальный рост. Мировой объем данных более чем удваивается каждые три года. Такими темпами к 2015 году мы дойдем до 8 зеттабайтов — это 8 000 000 000 000 000 000 000 (21 нуль) байтов. Добро пожаловать в Большой Взрыв 2.0!

Возникает логический вопрос: что можно сделать со всем этим материалом? Ответ дает эта книга: научиться на нем прогнозировать.

Большой страшный волк

Благие намерения, наиблагие, самые благие, благословили по лбу. Как вам нравится такая грамматика, молодой человек? А?

Эдвард Олби. Кто боится Вирджинии Вульф?

Склоните голову в поклоне: профессиональный жаргонизм большие данные приобрел поистине королевский статус. Он звучит в каждом выпуске новостей, в каждом докладе на тему интеллектуального анализа данных, в каждой рекламе аналитического программного обеспечения. Это революция! Это возможности! Это революция возможностей!

Больших данных не существует. Это секрет Полишинеля. Суть не в том, какие объемы данных уже накоплены, а в том, с какой скоростью эти объемы растут. Мы находимся в постоянном страхе быть погребенными под лавиной данных, поскольку одна вещь неизменна: с каждым днем их становится намного больше, чем было вчера. Размер — величина относительная, не абсолютная. Если мы используем слово большой сегодня, у нас быстро кончатся прилагательные: «большие данные», «еще бóльшие данные», «очень большие данные», «самые большие данные». С 1975 года проводится Международная конференция по очень большим базам данных. Нам не хватит словарного запаса, чтобы обозначить все эти объемы данных.

Говорить «большие данные» грамматически неверно. Это все равно что сказать «большая вода». Скорее следует говорить «много данных» или «множество данных».

Размер не имеет значения. Значение имеют темпы роста.

Данные всегда говорят

Берцовая кость соединена с коленной чашечкой,
Коленная чашечка соединена с бедренной костью,
Бедренная кость соединена с тазовой костью.

Из песни «Сухие кости»

Мы накапливаем тонны данных — и что из этого? Где гарантия того, что весь этот остаточный мусор, этот побочный продукт жизнедеятельности организаций представляет собой какую-либо ценность? Ведь это не более чем очень длинный список наблюдений, маниакально навязчивое перечисление событий, которые произошли.

Ответ прост. В этом мире все между собой взаимосвязано, пусть даже косвенным образом, и данные содержат в себе информацию об этих взаимосвязях. Например:

Данные всегда говорят. У них всегда есть что рассказать и что-то, на основании чего можно приобрести знания. Аналитики данных убеждаются в этом снова и снова с каждым очередным ПА-проектом. Соедините вместе какие угодно данные, и, хотя никогда нельзя знать наперед, что вы найдете, можно быть уверенным, что если вы сумеете расшифровать их язык и внимательно выслушать, то непременно обнаружите какие-либо ценные взаимосвязи. Вот суть «эффекта данных» в двух словах:

«Эффект данных»: данные всегда обладают прогнозным потенциалом.

Именно это предположение стоит за готовностью организаций шагнуть в неизвестность, решившись на внедрение ПА. Выделение денег, людей и инструментов на ПА-проект требует решимости — как уже говорилось, организация никогда не может знать наперед, что именно будет обнаружено, но верит в то, что обязательно узнает нечто ценное. Ведущий британский консультант, член экспертной группы конференции Predictive Analytics World Том Кабаза выразил эту мысль следующим образом: «ПА-проекты в принципе не могут провалиться из-за отсутствия выявленных шаблонов». Принимая во внимание «эффект данных», аналитики могут расслабиться.

Данные — это новая нефть. В нашем веке они превратились в самое большое богатство и часто рассматриваются как важнейший стратегический актив организаций. Некоторые идейные лидеры окрестили их «современной нефтью», а еврокомиссар по защите прав потребителей Меглена Кунева также назвала их «новой валютой цифрового мира». И это не преувеличение. В 2012 году Apple стала самой дорогой публичной компанией в мире, сместив с пьедестала крупнейшую нефтяную компанию Exxon Mobil. В отличие от нефти, данные легко транспортировать и дешево хранить. Их можно добыть буквально повсюду, и их запасы никогда не иссякнут.

Механизм прогнозирования

Прогнозирование начинается с малого. Строительный элемент ПА — предикторная переменная, отдельное значение, измеряемое для каждого человека. Например, новизна — количество недель, прошедшее с момента последней покупки, совершения последнего преступления или проявления медицинского симптома, — часто отражает вероятность того, что это повторится в ближайшем будущем. Во многих случаях, будь то маркетинговый контакт, уголовное расследование или клиническая оценка, имеет смысл начинать с тех людей, которые проявляли активность в последнее время.

Другим общепринятым и продуктивным параметром является частота — сколько раз индивид проявлял данное поведение. Если человек делает что-то достаточно часто, высока вероятность того, что он сделает это снова.

На самом деле именно то, что люди делали в прошлом, позволяет спрогнозировать, что они сделают в будущем. Поэтому ПА выходит за рамки скучных, но важных демографических данных, таких как место проживания и пол, и обращает пристальное внимание на поведенческие предикторы, т.е. прогнозные факторы, такие как новизна, частота, история покупок, финансовая активность и использование продукта. Поведенческие предикторы зачастую являются наиболее ценными из всех, поскольку обычно наша задача — предсказать поведение, а поведение предсказывает поведение. «Истинное “Я” человека определяется его поступками», — сказал Жан-Поль Сартр.

ПА достигает предсказательной силы путем объединения десятков и даже сотен предикторов. Вы сообщаете машине все, что знаете о каждом человеке, и запускаете программу обработки информации. Ключевая технология обучения, объединяющая эти элементы, — вот где происходит настоящая научная магия. О процессе обучения мы подробно поговорим в следующей главе, а пока давайте посмотрим на некоторые интересные предикторы индивидуального поведения.

Странные, загадочные и удивительные взаимосвязи

Многие предикторы — обыденные и скучные, но есть среди них и весьма интересные.

Клиенты приносят больше прибыли, если они не думают? Количество преступлений увеличивается после спортивных мероприятий? Чувство голода оказывает заметное влияние на судьбоносные решения судей? Люди с привлекательной внешностью пользуются меньшим вниманием? Продвижение по службе повышает вероятность того, что вы бросите эту работу? Вегетарианцы реже пропускают авиарейсы? Ваш адрес электронной почты говорит о ваших намерениях?

Да, да, да, да, да, да, да!

Добро пожаловать в Музей Рипли «Хотите верьте, хотите нет!», где ПА представляет наиболее любопытные из своих открытий. Создавая сборную солянку из потенциальных предикторов, ПА преследует цель не только оценить выработанные человеческим умом предположения путем проверки очевидных взаимосвязей, но и исследовать безграничное игровое поле возможных моделей и шаблонов, выходящих за рамки интуитивных догадок. В силу описанного выше «эффекта данных» прогнозная аналитика подчас обнаруживает взаимосвязи, которые кажутся лишенными всякой логики. Но, какими бы странными, загадочными или неожиданными они ни казались, эти открытия помогают прогнозировать.

Вот некоторые из наиболее колоритных открытий, каждое из которых соответствует одной предикторной переменной.

Необычные и удивительные открытия — поведение потребителей

Открытие

Организация

Возможное объяснение

Молодые люди в буквальном смысле пускают слюни по поводу спортивных автомобилей.

У студентов мужского пола вырабатывается заметно больше слюны, когда им показывают изображения спортивных автомобилей или денег

Школа менеджмента Келлога Северо-Западного университета

Потребительские импульсы психологически сходны с чувством голода

Среди покупателей подгузников больше потенциальных покупателей пива.

Такое открытие сделала одна аптечная сеть на основе данных по вечерним покупкам в нескольких десятках аптечных точек за 90-дневный период (хотя некоторые считают это городским мифом, это основано на реальных данных)

Аптечная сеть Osco Drug

Папа хочет пива

Куклы и шоколад.

60% покупателей кукол Барби также покупают один из трех видов шоколадных батончиков

Walmart

Покупки делаются вместе с детьми

Покупка степлера говорит о найме нового сотрудника.

Покупка степлера часто сопровождается покупкой бумаги, корзины для мусора, ножниц, скрепок, папок и т.д.

Крупный ретейлер

Степлеры обычно входят в комплект офисных принадлежностей для нового сотрудника

Пользователи Mac бронируют более дорогие отели.

Пользователи, заходящие на сайт путешествий Orbitz через компьютеры Apple Mac, тратят на 30% больше при бронировании отелей, чем пользователи компьютеров с операционной системой Windows. Orbitz использует это открытие, чтобы менять отображаемые на сайте опции в зависимости от вашей операционной системы

Интернет-агентство путешествий Orbitz

Компьютеры Mac часто стоят дороже, чем компьютеры, работающие на ОС Windows, поэтому пользователи Mac в среднем имеют более высокий уровень доходов

Ваша предрасположенность к покупкам варьируется в зависимости от времени суток.

Для сайтов розничной торговли пик приходится на 8 часов вечера; для сайтов знакомств на поздний вечер; для финансовых сайтов примерно на 1 час дня; для сайтов путешествий на период сразу после 10 часов утра. Речь идет не об интенсивности трафика, а о частоте покупок среди посетителей сайта

Исследование веб-сайтов

В разное время суток люди настроены на разные виды деятельности

Ваш адрес электронной почты говорит о серьезности ваших намерений.

Пользователи, которые при открытии бесплатной учетной записи указывают адрес электронной почты на Earthlink.com, в пять раз чаще переходят к платному премиум-членству, чем пользователи, указывающие адрес на Hotmail.com

Сайт знакомств

Готовность указать постоянный или основной адрес электронной почты говорит о серьезности намерений

Баннерная реклама влияет на вас больше, чем вы думаете.

Даже если вы считаете, что научились ее игнорировать, после показа рекламного баннера вероятность того, что впоследствии человек осуществит соответствующий поиск, повышается на 61%, что, в свою очередь, увеличивает на 249% количество кликов по показанной в результатах поиска платной текстовой рекламе компании, разместившей баннер

Yahoo!

Реклама действует на подсознательном уровне

Компании получают выгоду, если не подталкивают клиентов к размышлениям.

Иногда маркетинговый контакт с существующими клиентами может иметь обратный результат — прямая почтовая рассылка с предложением финансовых услуг клиентам, которые уже открыли несколько счетов, снижает вероятность того, что они откроют новые счета (более подробно об этом читайте в главе 7)

U.S.Bank

Клиенты, открывшие много кредитных счетов, подвержены импульсивным покупкам финансовых услуг, когда приходят в отделение банка, но когда они находятся дома, у них есть время обдумать решение и, возможно, изучить в Интернете предложения конкурентов. Они бы с большей вероятностью приняли решение об очередной покупке финансовой услуги, будучи предоставлены сами себе

Посещение веб-сайта компании раскрывает ваши намерения.

Клиенты сотовой связи, регистрирующиеся на сайте своего оператора при приближении срока окончания контракта, скорее всего, собираются уйти к конкурирующему оператору

Крупный североамериканский оператор сотовой связи

Не желая платить штраф за досрочное расторжение, пользователи, собирающиеся сменить оператора, хотят узнать дату окончания своего контракта

Друзья выбирают одного сотового оператора (социальный эффект).

Если вы меняете оператора сотовой связи, вероятность того, что ваши друзья последуют вашему примеру, увеличивается в 7 раз

Крупный североамериканский оператор сотовой связи; австралийская телекоммуникационная компания Optus обнаружила аналогичный эффект

Люди подвержены социальному влиянию и/или руководствуются финансовой выгодой, предлагаемой

внутрисетевой связью

Необычные и удивительные открытия — финансы и страхование

Открытие

Организация

Возможное объяснение

Чем ниже кредитный рейтинг, тем выше вероятность автомобильных аварий.

Страховые компании снижают размер страховой премии для людей с высоким кредитным рейтингом вследствие более низкого риска ДТП. И наоборот, людям с низким кредитным рейтингом страховой полис обходится дороже. На самом деле низкий кредитный рейтинг может увеличить величину вашей страховой премии даже больше, чем произошедшее по вашей вине ДТП; а пропуск двух платежей по кредиту может удвоить размер премии

Компании автострахования

«Исследования показывают, что люди, которые ответственно управляют своими личными финансами, как правило, управляют другими важными аспектами своей жизни с той же степенью ответственности, в том числе и своим поведением за рулем автомобиля», — утверждает Дональд Хэнсон из Национальной ассоциации независимых страховщиков

Ваши покупательские привычки предсказывают вашу надежность как должника.

Если кредитная карта используется для оплаты в питейных заведениях, риск пропуска платежей по кредиту для такого человека будет выше; оплата услуг дантиста означает более низкий риск неплатежей; покупка дешевого бензина вместо более дорогих известных марок — более высокий риск; покупка насадок на ножки стула для защиты полов — более низкий риск

Canadian Tire (крупная компания, специализирующая на розничной торговле и финансовых услугах)

Более осмотрительное поведение, например, визит к стоматологу, свидетельствует о более консервативном или тщательно спланированном образе жизни

Кредитный риск малого бизнеса зависит от поведения его владельца как потребителя.

В отличие от ссуд коммерческим предприятиям в целом, когда речь идет о кредитах малому бизнесу, данные о потребительском поведении его владельца являются более точными предикторами кредитного риска, чем данные о компании и ее бизнесе (разумеется, лучше всего объединить эти две категории данных)

Кредитные организации, работающие в лизинговой отрасли

Поведение малого предприятия в значительной степени отражает поведение и привычки одного человека — его владельца

Необычные и удивительные открытия — здравоохранение

Открытие

Организация

Возможное объяснение

Генетика обуславливает неверность жен.

В пределах определенного генетического кластера наличие большего количества генов, общих для гетеросексуальной пары, повышает вероятность женской неверности

Университет Нью-Мексико

Мы запрограммированы на избегание инбридинга (скрещивания близкородственных форм в пределах одной популяции), поскольку генетическое разнообразие имеет важные преимущества

Выход на пенсию подрывает здоровье.

В Австрии для определенной категории работающих мужчин установлена следующая зависимость: каждый год раннего выхода на пенсию сокращает продолжительность жизни на 1,8 месяца

Университет Цюриха

После выхода на пенсию люди часто начинают вести малоподвижный образ жизни, злоупотребляют алкоголем и курением. По словам Малькольма Форбса, «выход на пенсию убивает больше людей, чем тяжелый труд»

Поисковые запросы в Google позволяют предсказать вспышки заболеваний.

Анализ поисковых запросов по темам, связанным с гриппом, позволяет определить очаги и тенденции распространения вируса гриппа

Сервис Google Flu Trends

Люди с симптомами заболевания или имеющие поблизости людей с такими симптомам ищут соответствующую информацию

Курильщики реже страдают от заболеваний, вызванных повторяющимися движениями.

В некоторых видах рабочего окружения курящие люди менее подвержены развитию туннельного синдрома запястья

Крупная столичная газета, исследовавшая состояние здоровья своего персонала

Курильщики чаще делают перерывы в работе

Полезные здоровые привычки заразительны (социальный эффект).

Если вы бросаете курить, вероятность того, что ваши близкие знакомые продолжат курить, снижается на 36%. Если же один из ваших друзей приобрел избыточный вес, ваши шансы располнеть увеличиваются на 57%

Исследовательские институты

Социальное окружение оказывает на людей сильное влияние

Счастье заразительно (социальный эффект).

Каждый друг на Facebook, считающий себя счастливым, увеличивает ваши шансы также почувствовать себя счастливым примерно на 9%

Гарвардский университет

Счастливые люди распространяют вокруг себя волны счастья

Место забора ткани для трансплантации при хирургической операции на коленном суставе играет большую роль.

После операции по восстановлению передней крестообразной связки ходьба со сгибанием коленного сустава для пациентов, которым была пересажена ткань из связки надколенника, оказывается «трудной или невозможной» в два раза чаще, чем для пациентов, которым пересадили ткань с задней поверхности бедра

Шведский институт медицинских исследований

Связка надколенника пролегает поверх коленной чашечки, и забор ткани приводит к ее повреждению

Музыка ускоряет восстановление после инсульта и улучшает настроение.

Исследование показало, что перенесшие инсульт пациенты, которые слушают музыку пару часов в день, демонстрируют более значительное улучшение вербальной памяти и концентрации внимания, также улучшается их настроение

Отдел исследования когнитивных функций мозга, факультет психологии университета Хельсинки, и Центр исследований головного мозга, Хельсинки

Прослушивание музыки активизирует обширную билатеральную сеть отделов мозга, связанных с вниманием, семантической обработкой, памятью, двигательными функциями и эмоциями

Йога улучшает настроение.

Люди, долгое время практикующие йогу, показали лучшие результаты в психологическом тесте на настроение по сравнению с теми, кто ею не занимается, в том числе получили более высокую оценку по показателю «Энергичность»

Японские исследовательские институты

Йога предназначена для достижения душевного спокойствия

Необычные и удивительные открытия — преступность и правоохранительная деятельность

Открытие

Организация

Возможное объяснение

Террористы-смертники не страхуют свою жизнь.

Анализ банковских данных показал, что предполагаемые террористы обычно не имеют полиса страхования жизни

Крупный британский банк

Самоубийство аннулирует полис страхования жизни

В отличие от молнии, преступления дважды бьют в одно место.

Аналогичные преступления часто совершаются рядом с местом первого преступления, распространяясь как подземные толчки после землетрясения

Факультеты математики,

компьютерных наук, статистики, криминологии и права Калифорнийского университета

Преступники «нападают на близлежащие цели, поскольку им хорошо известны слабые места в местном образе жизни»

Уровень преступности растет после публичных спортивных мероприятий.

После разгромного поражения университетских футбольных команд количество преступлений с применением физического насилия возрастает на 112%

Университет Колорадо

Предлагаются различные психологические объяснения агрессивности фанатов

Уровень преступности повышается после выборов.

В Индии уровень преступности снижается в год выборов, но сразу после выборов резко возрастает

Исследователи из Индии

Действующие политики активизируют борьбу с преступностью, чтобы обеспечить себе переизбрание

Рост продаж телефонных карточек служит сигналом опасности в Конго.

Резкое увеличение продаж предоплаченных телефонных карт предвещает в Конго массовые беспорядки

CellTel (африканская телекоммуникационная компания)

Предоплаченные карты, номинированные в долларах США, служат карманным средством защиты от инфляции для людей, «предчувствующих надвигающийся хаос»

Голодные судьи склонны выносить более жесткие решения.

Сразу после завтрака число вердиктов в пользу заключенных (разрешающих условно-досрочное освобождение) находится на уровне 65%. Ближе к началу перерыва оно падает практически до нуля, однако после перекуса резко восстанавливается до изначальных 65%. Другими словами, если судья голоден, у вас гораздо больше шансов остаться в тюрьме

Колумбийский университет и Университет имени Бен-Гуриона (Израиль)

Голод и/или усталость делают принимающих решения людей менее великодушными

Необычные и удивительные открытия — разное

Открытие

Организация

Возможное объяснение

Музыкальные вкусы говорят о политических пристрастиях.

Любители Кенни Чесни и Джорджа Стрейта (кантри) отличаются более консервативными взглядами, любители Рианны и Джей Зи (поп и R&B) — более либеральными. Республиканцев легче вычислить по их музыкальным вкусам, чем демократов, поскольку их музыкальные предпочтения менее разнообразны. Фанатов хеви-металл можно найти по всему политическому спектру

The Echo Nest (компания, специализирующаяся на аналитике в области музыки)

Тип личности в некоторой мере определяет как музыкальные, так и политические пристрастия (это гипотеза автора; сами исследователи не предлагают никаких объяснений)

Знакомства по Интернету:

будьте оригинальным и нерелигиозным, чтобы добиться успеха.

Сообщения, инициирующие первый контакт, которые содержат слово awesome (потрясающий, чудесный), имеют в два раза больше шансов вызвать положительный отклик, чем сообщения со словом sexy («сексуальный»). Сообщения со словами your pretty («у тебя красивые…») получают меньше ответов, чем сообщения со словами you’re pretty («ты красивый/ая»). Howdy («Привет, как дела?») лучше, чем Hey («Эй»). Упоминание о музыкальной группе работает лучше, чем упоминание о литературе и видеоиграх. Слово «атеист» сделает вас более успешным, чем упоминание о большинстве основных религий, но слово «Зевс» действует еще лучше

OkCupid (онлайновая служба знакомств)

Банальные фразы и пошлости снижают интерес к человеку; видеоигры — не сильный афродизиак

Люди с привлекательной внешностью пользуются меньшим вниманием.

Пользователи сайта знакомств, имеющие более широкий разброс оценок внешней привлекательности, получают больше сообщений, чем пользователи с таким же средним рейтингом, но меньшим разбросом оценок. Более широкий разброс мнений, предполагающий больше разногласий по поводу внешности, ведет к бóльшей популярности

OkCupid (онлайновая служба знакомств)

Люди часто считают, что у них нет шанса завязать отношения с теми, кто обладает действительно красивой внешностью. Ожидание меньшей конкуренции поощряет людей инициировать контакт

Продвижение по службе может привести к уходу сотрудника.

В одном подразделении компании Hewlett-Packard повышение по службе увеличивает вероятность ухода сотрудников, если это не сопровождается достаточным увеличением заработной платы. Продвижение по службе без прибавки к зарплате приносит больше вреда, чем пользы

Hewlett-Packard

В отсутствии адекватного финансового вознаграждения расширение должностных обязанностей воспринимается как обременительная дополнительная нагрузка

Вегетарианцы реже пропускают авиарейсы.

Пассажиры, при покупке билета заказавшие вегетарианское питание на борту, вряд ли пропустят рейс

Одна авиакомпания

Знание того, что на борту их ожидает персонализированная еда, является стимулом или создает у людей чувство приверженности

Подпись к фотографии может указать на ее качество.

Даже не глядя на саму фотографию, можно спрогнозировать ее субъективную оценку людьми. Наличие в подписи таких ключевых слов, как Перу, гробницы, следы и лодки, обычно свидетельствует о более качественных фотографиях, тогда как такие слова, как вручение дипломов и генеральный директор, говорят о более низком качестве

Неизвестно

Некоторые места и события дают возможность или подталкивают людей делать более живописные снимки

Мужчины на «Титанике» рисковали намного больше, чем женщины.

У женщин на «Титанике» шансы выжить были в четыре раза выше, чем у мужчин. Большинство мужчин погибло, тогда как большинство женщин выжило

Различные исследования

Женщин первыми сажали в шлюпки

Сольные рок-музыканты умирают более молодыми, чем участники рок-групп.

Хотя все рок-звезды сталкиваются с повышенным риском, сольные исполнители подвержены в два раза более высокому риску ранней смерти, чем те, кто играет в рок-группах

Общественная служба здравоохранения, Великобритания

Участники групп получают поддержку своих коллег. Сольные исполнители склонны проявлять гораздо более рискованное поведение

Корреляция не подразумевает наличия причинно-следственной связи

Удовлетворение наступает как цепная реакция.

Из песни «Disco Inferno» группы The Trammps

Приведенные выше таблицы наполнены любопытными фактами, но не объясняют одной важной вещи.

Обратите внимание на то, что третья колонка называется «Возможное объяснение». Описанные в первой колонке открытия реальны и подтверждены данными, но стоящие за ними причины неизвестны. Объяснения же, приводимые в правой колонке, — это не более чем гипотезы, догадки, не подтвержденные достоверными фактами.

Проблема в том, что корреляция не подразумевает наличия причинно-следственной связи. Обнаружение предиктивной взаимосвязи между А и В не означает, что одно из них служит причиной другого, пусть даже косвенным образом. Ни косвенно, никак.

Возьмем такой пример: увеличение продаж мороженого по времени совпадает с увеличением частоты нападения акул. Как вы думаете, почему? Причинное объяснение может гласить, что поедание мороженого делает нас вкуснее, что привлекает акул:

picture

Однако представляется более правдоподобным, что в данном случае не одно явление служит причиной другого, а оба явления вызываются неким общим фактором. В холодные дни люди едят меньше мороженого и меньше купаются в море, в теплые дни — наоборот:

picture

Или возьмем из вышеприведенной таблицы пример с курильщиками, которые реже страдают от туннельного синдрома запястья. Одним из объяснений является то, что курильщики чаще делают перерывы:

picture

Но может быть и другое объяснение, а именно что в крови курильщиков присутствует некое таинственное вещество, которое влияет на то и другое:

picture

По правде говоря, за выявленной взаимосвязью между курением и туннельным синдромом запястья может стоять какое угодно объяснение. Имея это в виду, еще раз просмотрите таблицы. Это правило применимо ко всем примерам. Мы знаем что, но не знаем почему.

При прикладном применении ПА причинно-следственные связи зачастую абсолютно для нас неважны, и мы не пытаемся их установить. Цель большинства ПА-проектов — научиться прогнозировать, а не понять, что движет миром.

Причинно-следственные отношения сложны и трудноуловимы. Мы предполагаем, что все вещи тем или иным образом влияют друг на друга, и исходим из этой причинной зависимости в физике, химии, медицине, финансах, психологии и т.д. Ученые мужи в этих областях трудятся в поте лица над установлением и описанием причинно-следственных связей.

С прогнозной аналитикой все гораздо проще. Она просто должна работать; правильные прогнозы важнее объяснений. ПА «заточена» на поиск решения. Ее суть, ее «денежная» ценность заключается в принятии решений на основе множества индивидуальных прогнозов по каждому пациенту, клиенту, потребителю и т.д. И хотя ПА, как и другие социальные науки, часто позволяет сделать важные открытия, они, как правило, являются побочным эффектом, а не основной целью.

Это делает ПА своего рода «метанаукой», которая выходит за рамки классификации естественных и социальных наук и черпает знания из всех существующих источников данных, к какой бы области — биологии, криминологии, экономике, образованию, эпидемиологии, медицине, политологии, психологии или социологии — они традиционно ни относились. Миссия ПА — находить решения. Что же касается используемых данных и методов, то тут действует принцип «все, что работает».

Даже самые увлеченные ученые порой борются с позывом объяснить все и вся. Такова человеческая природа, но это опасно. В этом разница между хорошей и плохой наукой.

Стейн Кретсингер, основатель и генеральный директор Advertising.com и член совета директоров Elder Research, рассказывает классическую историю о нашем чересчур пытливом уме. В начале 1990-х годов Стейн, в то время аспирант, проводил презентацию результатов одного медицинского исследования, целью которого было оценить факторы, влияющие на то, сколько времени требуется для отучения пациента от аппарата искусственной вентиляции легких. Поскольку это было еще до появления PowerPoint, Стейн по очереди представлял каждый фактор, вставляя в проектор диапозитивы с графиками. Группа специалистов кивала головами и предлагала объяснения того, что показывали данные. Тут Стейн обнаружил, что вставляет диапозитивы не той стороной, таким образом проецируя на экран зеркальное изображение, показывающее противоположную зависимость. Когда же он показал эти диапозитивы так, как нужно, эксперты так же легко предложили новые объяснения прямо противоположному влиянию каждого фактора. Наш ум весьма изворотлив — мы легко можем подогнать правдоподобную теорию под все что угодно.

В другом случае в одном опубликованном медицинском исследовании утверждалось, что женщины, получавшие гормонозаместительную терапию, были менее подвержены развитию ишемической болезни сердца. Может быть, был открыт новый метод лечения этого заболевания?

picture

Впоследствии контрольный эксперимент опроверг это ложное заключение. Было выдвинуто другое объяснение, что гормонозаместительная терапия доступна более состоятельным женщинам, которые также ведут более здоровый образ жизни в целом:

picture

Делать поспешные выводы о причинно-следственных связях — плохая наука, которая ведет к плохой медицинской помощи. Но такого рода исследовательские конфузы не редкость. Согласно The Wall Street Journal, число впоследствии опровергнутых научных публикаций в последние годы резко возросло.

Но в этой области граница между правильными и неправильными умозаключениями довольно размыта. Двадцать лет назад, в аспирантуре, я подружился с одним коллегой, заядлым курильщиком, который к тому же блестяще разбирался в теории вероятностей. Если вы пытались критиковать его вредную привычку на основании клинических исследований, он уничижительно заявлял: «В исследованиях по проблемам курения нет контрольных групп». Он ставил под сомнение общепризнанную причинно-следственную связь:

picture

Однажды, когда мы стояли с ним перед корпусом факультета компьютерных наук и я старался держаться в стороне от выпускаемых им клубов сигаретного дыма, он разъяснил мне свою точку зрения. Поскольку я недавно начал изучать теорию вероятности, до меня вдруг дошло, о чем он говорит, и я, с недоверием глядя на него, спросил: «Ты хочешь сказать, что исследования на самом деле отражают тот факт, что курят в основном глупые люди, которые также делают другие глупые вещи, и именно эти другие вещи плохо влияют на их здоровье?» По этой логике, если мой приятель был умным человеком и не делал других глупых вещей, курение не могло причинить вреда его здоровью:

picture

Он выпустил длинную струю дыма и торжественно, будто выиграл важный спор, безо всякой иронии сказал: «Да!» Такую же точку зрения в 1950 году отстаивал один из основателей современной статистики Рональд Фишер. Будучи заядлым любителем курительной трубки, он активно критиковал спонсируемую правительством программу по информированию населения о рисках курения, называя это вопиющим паникерством.

Рассуждая о последствиях табакокурения, известный медицинский статистик Дэвид Салсбург написал, что «сам смысл причинно-следственной связи является глубокой философской проблемой… которая гложет сердце научной мысли». Отчасти благодаря нашему пониманию того, каким образом вдыхаемые вещества ведут к генетическим мутациям, порождающим раковые клетки, мы как общество стали придерживаться коллективного убеждения, что курение является причиной рака. По-моему, это разумная позиция. Но, хотя я умоляю ученых не злоупотреблять интерпретацией результатов, я также умоляю вас не курить.

Причины и следствия эмоций

Искусство — не зеркало, отражающее реальность, а молот, кующий ее.

Бертольд Брехт

Сердце имеет свои причины, неведомые уму… Мы знаем истину не только умом, но и сердцем.

Блез Паскаль

В своих усилиях по выявлению практической пользы от индекса коллективного эмоционального состояния, основанного на информации из блогов, Эрик Гилберт и Кэрри Карахалиос полностью обошли стороной проблему причинно-следственных связей. «Установление причин не входило в нашу задачу», — написали они в отчете об исследовании. Действительно, чтобы доказать работоспособность модели, им не нужно было знать причины происходящего — нужно было только показать наличие определенной взаимосвязи между ежедневными колебаниями созданного ими барометра эмоций и подъемами и спадами на фондовом рынке. Это бы доказало, что их индекс массовых эмоций отражает объективную реальность и не является чисто произвольной конструкцией.

Таким образом, Эрик и Кэрри нарушили общепринятый протокол, напрямую обратившись к поиску абстрактной взаимосвязи. Традиционно ход исследования предполагает, что, прежде чем тестировать корреляцию между двумя явлениями, необходимо выдвинуть более-менее конкретную гипотезу о возможной причинно-следственной связи между ними. Один критик жаловался, что в их работе «не предлагается никакого правдоподобного механизма, который бы подтверждал, что данная корреляция верна».

Когда мы перемещаемся от психологии индивида к эмоциональной динамике больших человеческих групп, то сталкиваемся с запутанной паутиной возможных причинно-следственных связей. Отражает ли искусство реальность или же, наоборот, реальность формируется искусством? Блоги отражают происходящее в мире или же выступают катализаторами происходящего? Как происходит нарастание эмоций внутри человеческой группы? Не действует ли в толпе своего рода эмоциональный эффект домино? Фрейд сказал о групповой психологии следующее: «Наиболее примечательным и важным результатом формирования группы является “экзальтация или интенсификация эмоций”, испытываемых каждым ее членом». Исследование, проведенное в 2008 году Гарвардским университетом совместно с несколькими другими институтами, подтвердило этот феномен на примере распространения ощущения счастья среди друзей в социальных сетях.

Может быть, тревога и страх, выражаемые в блогах, впоследствии также влияют на фондовый рынок?

picture

Или же сами блоги усиливают панические настроения?

picture

Исследование Эрика и Кэрри не предлагало ни одной наиболее вероятной гипотезы — в отличие, например, от исследований взаимосвязи между курением и раком. При изучении возможных последствий курения у нас есть гораздо более четко очерченная область для выдвижения гипотез о возможных причинно-следственных связях и их тестирования: химическое вещество проникает через дыхательные пути в организм конкретного человека и внутри этого организма вызывает определенные явления.

Несмотря на всю сложность групповой психологии и эмоций, в своей работе Эрик и Кэрри руководствовались общей гипотезой, основанной на мудром предположении Алана Гринспена о том, что тревога — враг экономического роста. Под влиянием тревожных настроений инвесторы стремятся защитить свои деньги от возможного обвала рынка и продают акции, тогда как на волне всеобщего оптимизма они более предрасположены к риску и покупают. Бóльший спрос на акции ведет к росту цен, что отражается в более высоком значении индекса S&P 500.

В какой-то степени незнание того, как все это на самом деле работает, таит в себе некоторое очарование. Мы живем в этом мире, будучи уверены в том, что он построен на сложной сети причинно-следственных связей между эмоциями и действиями, а также между самими людьми — теми, кто испытывает эмоции, и теми, кто совершает действия. Эффект данных говорит нам, что эти причинно-следственные отношения обязательно тем или иным образом проявляются в данных, что и наделяет последние прогнозной силой.

Пока Эрик и Кэрри трудились над валидацией своего Индекса тревоги, члены их исследовательской группы в шутку тестировали самые невероятные причинно-следственные связи вроде такой: «Давайте сегодня целый день писать в своих блогах о щенках и котятах, чтобы улучшить ситуацию на фондовом рынке!»

Рисунок стоимостью в тысячу бриллиантов

Под давлением рождаются алмазы.

Генерал Джордж Паттон

Поцелуй ручки может быть весьма галантным, но все же лучшие друзья девушки — это бриллианты.

Из песни к кинофильму «Джентльмены предпочитают блондинок», слова Лео Робина

Эрик и Кэрри погрузились в исследования. В этом деле было очень много неизвестных, которые им предстояло установить. Если их барометр массовых эмоций действительно предсказывает движения фондового рынка, насколько он опережает события — т.е. сколько дней требуется для того, чтобы тревожные настроения в массах произвели осязаемое экономическое воздействие? Следует ли искать возможные проявления на следующий день или через месяц? Что они должны пытаться спрогнозировать — направление движения рынка, абсолютный уровень, объем торгов или что-то другое? Интуитивные догадки соблазняли исследователей заманчивыми перспективами, но на поверку результаты не были достаточно убедительными для того, чтобы можно было сделать надежные выводы.

Перелом наступил, когда исследователи прибегли к визуализации. Преимущество графиков состоит в том, что они позволяют использовать наши зрительные способности для выявления возможных прогнозных шаблонов. На приведенном ниже рисунке представлено два графика — Индекса тревоги и индекса S&P 500:

picture

При наложении графика Индекса тревоги (пунктирная линия) на график индекса S&P 500 (сплошная линия) вырисовываются паттерны «бриллиант». График индекса S&P 500 на два дня отстает от графика Индекса тревоги. Рисунок опубликован с разрешения.

Эти два графика в значительной степени зеркальны и формируют множество ромбовидных фигур — «бриллиантов». Эти фигуры образуются в результате того, что, когда линия на одном графике идет вверх, на другом она идет вниз, как бы отражая первую, и наоборот. Наличие такой корреляции является одной из визитных карточек прогнозируемости по двум причинам:

  1. Индекс тревоги, изображенный пунктирной линией, повышается, когда цены на фондовом рынке идут вниз (график S&P 500). «Высокая тревожность отрицательно влияет на рынок», — пишут Эрик и Кэрри.
  2. На этом рисунке график Индекса тревоги сдвинут на два дня вперед. Это значит, что в действительности изменение Индекса тревоги происходит за два дня до того, как индекс S&P 500 совершит соответствующее движение в противоположную сторону, — т.е. оно предвосхищает рыночный тренд и дает возможность для прогнозирования.

Таким образом, сдвигая относительные временные рамки при наложении графиков и корректируя некоторые другие параметры, Эрик и Кэрри могли визуально просканировать множество таких рисунков в поисках «бриллиантов», которые могли обнаруживать прогнозные шаблоны.

Как можно увидеть на рисунке, фигура «бриллиант» не везде имеет форму правильного ромба и проявляется не на всех отрезках; тем не менее общая тенденция двух линий двигаться в противоположном направлении означает, что прогнозирование в принципе возможно.

Правильная интерпретация коллективных эмоций является ключевым фактором, от которого зависит формирование «прогнозных бриллиантов». В частности, необходимо понимать, что интенсивность эмоций — величина относительная. Значение имеет изменение их интенсивности. Поэтому, вместо того чтобы отслеживать абсолютный уровень тревоги, приведенный выше график Индекса тревоги отражает, насколько быстро изменяется уровень тревожности от одного дня к другому. Когда общий уровень беспокойства блогеров повышается, график принимает положительные значения; когда снижается — отрицательные. Индекс тревоги рассчитывается на основе огромного количества тревожных и не тревожных постов:

picture

Бриллианты — не только лучшие друзья девушек, но и, как мы увидели, подчас могут быть лучшими друзьями аналитиков данных.

Эмоции: подтверждение теории и победа

Восторг победы… и агония поражения.

Из телепрограммы Wide World of Sport на АВС, 1961–1998 годы

Визуальное исследование помогло сформулировать гипотезу, но само по себе не является доказательством. Следующим шагом Эрику и Кэрри нужно было «формально протестировать взаимосвязь между тревогой, страхом и беспокойством — и фондовым рынком». Они рассчитали Индекс тревоги для 174 торговых дней в 2008 году на основе в общей сложности более чем 20 миллионов записей в «Живом журнале» и собрали данные по динамике индекса S&P 500 за тот же период. Затем они применили статистический тест на выявление прогнозных связей, разработанный лауреатом Нобелевской премии по экономике Клайвом Грэнджером.

Сработало! Исследование показало, что настроение широкой общественности предсказывает ситуацию на фондовом рынке. Взволнованные Эрик и Кэрри так написали в докладе для конференции: «Увеличение количества постов, выражающих тревогу, предсказывает понижение давления на S&P 500».

Статистический тест показал, что Индекс тревоги «содержит новую предиктивную информацию о фондовом рынке». Другими словами, Индекс тревоги является инновационным, уникальным и ценным инструментом, который помогает лучше предсказать будущее поведение рынка, чем это может быть сделано путем одного только анализа рынка как такового. Его новизна подтверждается демонстрацией того, что способность прогнозировать будущее поведение рынка на основе его недавней динамики улучшается, если при этом также учитываются недавние значения Индекса тревоги.

Это открытие стало прорывом как первая установленная взаимосвязь между массовыми настроениями и экономикой. Возможно, значение этого открытия еще шире, поскольку оно впервые на научной основе соединило эмоциональное состояние большой группы людей и измеримое поведение этой группы. Эрик и Кэрри впервые разработали количественный показатель массовых эмоций, основанный на спонтанном человеческом поведении, и доказали его правильность вне лаборатории, в реальном мире.

Эрик, Кэрри и их коллеги праздновали победу, пожиная плоды успеха в виде научных публикаций и карьерного роста. По словам Кэрри, на еженедельном собрании их исследовательской группы «энергия била ключом, каждый понимал, что они сделали нечто значимое». Проект послужил основой для докторской диссертации Эрика и помог ему получить место преподавателя в Технологическом институте штата Джорджия. «Я безумно рад стать частью профессорско-преподавательского состава этого замечательного учебного заведения, — эмоционально написал Эрик в своем блоге. — Это все равно что заслужить честь открывать концерт Rolling Stones в 1967 году». В этой новой роли он получил престижные государственные исследовательские гранты и стипендию от Google.

Эмоции оказались курицей, несущей золотые яйца, т.е. предсказателями будущего поведения фондового рынка, — но не наоборот. Никакого цикла «яйцо или курица» здесь обнаружено не было. Эрик и Кэрри попытались установить наличие обратного прогнозного эффекта — что поведение фондового рынка предсказывает будущее настроение масс, но безрезультатно. Вероятно, причина в том, что экономика всего лишь один из множества факторов, влияющих на эмоциональное состояние людей, тогда как эмоциональное состояние, напротив, — главный фактор, влияющий на характер экономической активности. Похоже, это улица с односторонним движением.

Счастливая случайность и инновации

Самая волнующая фраза, чаще всего предвещающая научные открытия, — это вовсе не «Эврика!», а «Хм… это странно…»

Айзек Азимов

Если нужда — мать изобретательности, то счастливая случайность — ее отец. Только счастливая случайность натолкнула Александра Флеминга на открытие чудодейственного пенициллина. Занимаясь уборкой в своей лаборатории, он обратил внимание на то, что в одной из чашек Петри со старыми культурами, которые он собирался помыть, случайно попавшая туда плесень убила колонию опасных микробов — стафилококков.

Популярный препарат от облысения миноксидил, часто продающийся под маркой «Рогаин», первоначально был разработан как средство от повышенного артериального давления, пока у него не обнаружили удивительной побочный эффект — стимулирование роста волос.

По своей природе прогнозная аналитика способствует таким счастливым открытиям. Прогнозное моделирование состоит из широкого исследовательского анализа и тестирования большого числа прогнозных факторов, в процессе чего и делаются неожиданные открытия наподобие того, что вегетарианцы реже пропускают авиарейсы (другие примеры смотрите в таблицах, приведенных ранее в этой главе).

Иногда на открытие стоимостью миллион долларов можно наткнуться, просто собирая данные для ПА. Почему? Да потому, что, пока вы не начнете копать, многие факты остаются скрытыми от глаз. Однажды я занимался отбором и организацией данных одного интернет-сервиса с целью спрогнозировать, кто из клиентов собирается отменить подписку. В процессе я обнаружил серьезную пробоину в их днище. Многие клиенты отменяли подписку непреднамеренно по причине того, что из-за сбоев в работе кредитных карт у них не проходил ежемесячный или ежеквартальный абонентский платеж. Во многих таких случаях процессинговый центр выдавал сообщение «Подождите — обратитесь в службу поддержки». Это означало, что сотрудник компании, предоставляющей услугу, должен удержать кредитную карту и позвонить в колл-центр, чтобы узнать, нельзя ли завершить авторизацию платежа при помощи каких-либо дополнительных шагов. Но, поскольку транзакции были автоматическими, без участия живых сотрудников, они так и оставались незавершенными — и клиенты попросту утекали в эту пробоину. По моим оценкам, внедрение процесса, который помог бы устранить подобные случаи, мог принести моему клиенту порядка $1 млн дополнительного годового дохода.

Открытие Эрика и Кэрри породило целый шквал исследований, преследующих цель научиться использовать барометры массовых настроений, применительно к разным социальным медиа, таким как блоги, Twitter, Facebook и др., для прогнозирования. Опираясь на мнения общественности, они пытаются предсказать буквально все:

Прогнозирование на основе социальных медиа мгновенно превратилось в повальное увлечение, последний крик моды в исследовательских лабораториях и инвестиционных хедж-фондах. Традиционно скучные и непонятные названия научных докладов сменились броскими наименованиями под стать газетным заголовкам, например: «Предсказание будущего при помощи социальных медиа», «Может ли Facebook спрогнозировать поведение фондового рынка?» или «Тревожные настроения в массах и фондовый рынок» (доклад Эрика Гилберта и Кэрри Карахалиос, о котором упоминалось в этой главе).

Инвестиционные рекомендации от блогосферы

Хотя почти половина сокурсников Кэрри по Массачусетскому технологическому институту работала на Уолл-стрит, сама она испытывала некоторые сомнения, когда ей предложили участвовать в исследовании, которое могло быть расценено как попытка игры на бирже. Финансовый и академический мир — во многом культурные антиподы. Уолл-стрит казалась Кэрри воплощением жесткого предпринимательского духа, стремящегося всеми правдами и неправдами поставить себе на службу ученых, движимых чисто научными интересами. В конце концов Кэрри согласилась консультировать Эрика в более научной области, такой как социальные вычисления — изучение социального поведения людей при помощи компьютерных технологий. Это значит, что поведение людей наблюдается в социальных сетях и анализируется с использованием вычислительных средств. Вы можете рассматривать это как электронную социологию.

Такое смещение фокуса в анализе социального поведения является знамением времени. Такой вот удивительный поворот судьбы для компьютерных наук, которые традиционно считались «самой несоциальной» научной отраслью. Но Кэрри придерживалась иного мнения. Еще в 1993 году, будучи неоперившимся молодым исследователем в лаборатории Массачусетского технологического института, она обратила внимание на то, что «бóльшая часть сетевого трафика представляла собой не обмен научной информацией, для чего, собственно говоря, предназначалась сеть, а социальные взаимодействия, не связанные с исследованиями».

Работа Эрика и Кэрри была хорошо принята их коллегами по университету. Но, учитывая ее потенциальную применимость в финансовой сфере, существовала опасность того, что характер исследования может смениться с поиска научного знания на изобретение очередного способа зарабатывать деньги. Эта работа не только была шагом вперед в социальных науках, но и могла служить абсолютно утилитарной цели — лечь в основу черного ящика для торговли на фондовом рынке. Поэтому в сообществе специалистов по социальным вычислениям усилия Эрика и Кэрри вызвали куда меньше энтузиазма, чем те ожидали. Это было своего рода столкновением культур. Чаще всего первой реакцией было: «Почему бы вам не бросить науку и не начать зарабатывать деньги при помощи своей модели?»

Есть ли место финансовому прогнозированию в мире чистой науки? Ученые могут спросить, не было бы лучше, если бы Эрик и Кэрри поставили своей целью научиться прогнозировать массовые настроения как таковые и затем использовать эти открытия для разработки каких-либо прикладных технологий, позволяющих улучшать настроение людей и сделать этот мир более счастливым? Не приводит ли вступление на финансовую территорию к тому, что ученые неизбежно заражаются страстью наживы? Но изучать эмоции, чтобы заработать побольше денег, чтобы стать счастливым, — не выглядит ли это как погоня за миражом?

Нет, все в порядке. Наука и деньги должны научиться сосуществовать друг с другом.

Деньги заставляют мир вертеться

Как и можно было ожидать, больше всего запросов по работе Эрика и Кэрри поступило не из академических кругов, а от хедж-фондов. Трейдеры на фондовом рынке истекали слюной при мысли об открывающихся перспективах. Некоторые набросились на их открытие, доработали и встроили в свои стратегии.

Существует мнение, что интерпретация настроений и намерений, выраженных в публикациях в Интернете, таких как блоги и т.п., в скором времени станет одним из основных компонентов рыночного анализа наряду со стандартными экономическими показателями. Рэнди Сааф, генеральный директор небольшой новаторской инвестиционной компании AlphaGenius, высказал именно эту идею в начале 2012 года на Конференции по текстовой аналитике в Сан-Франциско. «Мы рассматриваем “настроение” как одну из категорий диверсификации активов наравне с зарубежными рынками, облигациями и золотом… AlphaGenius изучает тысячи постов в Интернете и сообщений в Twitter и решает, поступает ли по данной ценной бумаге сигнал на покупку или продажу. Если сигналы указывают на то, что ценная бумага приближается к определенному порогу, мы проводим сделку». Другой хедж-фонд, Derwent Capital Markets, сообщает о своих успехах на этом фронте, а голландская фирма SNTMNT (от слова sentiment — настроение) предлагает интерфейс прикладного программирования, позволяющий любому участнику рынка торговать на основе коллективных настроений пользователей Twitter. «Масса умных людей давным-давно втайне торгует на настроениях, выраженных в новостях и твитах», — признался мне эксперт по финансовым рынкам и прогнозной аналитике Бен Гимперт.

По правде говоря, на сегодня нет публично известных убедительных доказательств того, что массовые настроения являются достаточно точным предиктивным фактором, позволяющим добиться успеха на фондовом рынке. Прогнозная сила Индекса тревоги была продемонстрирована на примере 2008 года — одного из наиболее эмоциональных в финансовом плане из-за коллапса экономики. Возможно, что в другие годы намного меньше эмоциональных записей в блогах связано с фондовым рынком. О том, насколько успешно хедж-фонды пользуются настроениями как прогнозным фактором, подтвержденной информации пока нет.

Выявленные шаблоны не приносят торжественной клятвы, что будут существовать вечно. Точно так же, как инвестиционные компании не устают предупреждать, что «прошлая доходность не является гарантией будущих результатов», никогда нет 100%-ной уверенности в том, что устойчивая в прошлом закономерность будет сохраняться и дальше. Эксперт по статистике Бен Буллард из Elder Research объясняет это так: «Специфика наших исследований такова, что у нас, как правило, ограниченные данные, но масса идей, в результате чего мы зачастую рискуем наткнуться на случайную корреляцию, которая не является “реальной” и не будет проявляться в будущем».

В следующей главе мы обратимся именно к этой теме и постараемся ответить на вопрос «Можно ли доверять тому, что узнал компьютер?». Я расскажу вам забавную историю, как авторы одного исследования копали настолько широко и глубоко, что докопались до абсурдной взаимосвязи между продажами молочных продуктов в Бангладеш и фондовым рынком США!

Принимая во внимание высокую вероятность ложных открытий, Бен Буллард, хоть и является экспертом по черным ящикам, «изначально скептически относится к любой попытке спрогнозировать динамику фондового рынка». Но работу Эрика и Кэрри он считает «новаторской и интересной, заслуживающей дальнейшего исследования».

Финансовый мир жадно рыщет вокруг в поисках любого нового источника прогнозной информации. Необычность «эмоциональных данных» может говорить об их потенциале. Делом в том, что новый показатель только тогда способен улучшить точность прогнозирования, когда обладает предиктивной силой и существенно отличается от уже используемых источников данных. Ставки высоки — создаваемое им преимущество может стоить миллионы долларов.

Собираем все вместе

Индекс тревоги — лишь один из примеров наблюдаемой сегодня тенденции к взрывному росту объемов разнообразных данных и не менее взрывному росту инновационных подходов, изобретаемых организациями в стремлении научиться превращать весь этот сок-сырец в кленовый сироп. Как и в других случаях, чтобы реализовать прогнозный потенциал барометра массовых настроений, его необходимо скомбинировать с другими источниками данных. Прогнозная аналитика и есть та самая чаша, где смешиваются все сырые продукты и из них извлекается «кленовый сироп», позволяющий улучшить процесс принятия решений.

Но для успешного выполнения этой задачи нам необходимо ответить на один фундаментальный вопрос: как грамотно скомбинировать эти многочисленные потоки данных, чтобы улучшить прогнозирование? Нельзя просто слить все в одну чашу и размешать большой ложкой. Нужен кухонный комбайн, который способен научиться правильно комбинировать и смешивать разнообразные ингредиенты данных. В следующей главе мы узнаем, как это делается.

picture
Назад: Глава 2. С властью приходит ответственность
Дальше: Глава 4. Машина, которая учится