Прогнозирование тенденций в социальных сетях (глава вторая)

На основе степеней воздействия (выявляемых в результате наблюдения) в социальной сети можно вычислить вероятность появления новой модели поведения, которое вначале проявляется у некоторых индивидов и впоследствии распространяется на большое количество людей. Это то, что я называю потоком идей, то есть распространением новой идеи в сети.

Одна из главных трудностей, касающихся прогнозирования тенденций, связана с тем, что первый этап распространения «будущих глобальных» тенденций очень схож с другими типами сетевых шаблонов. Другими словами, на основе нескольких замеченных при наблюдении поведенческих изменений в социальной сети очень трудно предсказать, какие из них приведут к возникновению широко распространенной тенденции, а какие быстро уйдут в забвение.

Чтобы решить эту проблему, постдокторант Янив Альтшулер вместе с Вэй Панем и мной создал метод прогнозирования распространения тенденций с использованием составной модели влияния, описанной выше. Мы смоделировали сообщество, или социальную сеть, в виде графа G, который состоит из U (члены сообщества) и W (социальные связи между ними). Мы используем n для обозначения размера сети, а именно |U|. Наша задача в пределах данной сети – прогнозировать распространение модели поведения, выраженной неким аномальным шаблоном а, доступным для наблюдения. Обратите внимание на то, что a может относиться либо к растущему числу пользователей какого-нибудь нового веб-сервиса, такого как Groupon, либо к модели поведения, например участия в движении «Захвати Уолл-стрит» («Нас 99 процентов»).

Обратите внимание на то, что воздействие тенденций непостоянно. В частности, пользователь – субъект воздействия генерирует проводники воздействия, которые могут передаваться через социальные звенья в сети пользователям – объектам воздействия, которые, в свою очередь, передают их своим друзьям, и т. д. Поэтому мы моделируем взаимодействия, связанные с воздействием тенденций, такие как передвижения случайных проводников, «гуляющих» по сети. Каждый пользователь, испытавший на себе воздействие тенденции а, в среднем генерирует β таких проводников.

Мы предполагаем, что наша сеть – является (или приблизительно равняется) безмасштабной сетью G(n, c, γ), а точнее, сетью из n пользователей, где вероятность того, что у пользователя u есть соседи d, следует степенному закону:

P(d) ~ c · d^–γ.

Эта модель доказала свою точность для большинства социальных сетей, представленных в этой книге; интересно, что некоторые сети, в которых, как мы думаем, нет распределения по степенному закону (например, сети телефонных вызовов) могут моделироваться как относительно фиксированный компонент вместе с добавочным компонентом степенного закона. Предметом недавних исследований стало влияние в социальной сети. В составной модели влияния, описанной выше, проверялась вероятность того, что пользователи сети будут устанавливать определенные приложения после ознакомления с приложениями, которые установили себе их друзья. Как мы выяснили, для некого пользователя u такое поведение лучше всего моделируется следующим образом:

P_{Local–Adopt}(a, u, t,∆t) = 1–exp{–(s_v+p_a(u))}.

Определения и методы получения значения s_v и w_{u, v} такие же, как в разделе об усваивании моделей поведения выше. Для каждого участника u ∈ U, s_u ≥ 0 выражает индивидуальную восприимчивость этого участника, независимо от того, о каком именно поведении (или тенденции) идет речь. p_a(u) обозначает сетевой потенциал пользователя u по отношению к тенденции a и понимается как сумма независимых от социальных сетей весов пользователя u и друзей, через которых на него влияет тенденция a. Также обратите внимание на то, что оба свойства не зависят от тенденции. Однако, хотя s_u вычисляется один раз для каждого пользователя и не зависит от сети, p_a(u) вносит специфическую информацию о сети и мы также можем использовать его, чтобы выбрать участников сети, на которых будет нацелен начальный этап нашей операции.

На основе P_{Local–Adopt}мы можем вычислить значения P_Trend, которые я назвал потоком идей, согласно Альтшулеру и Пентленду. Мы доказали точность и прогностическую силу нашей модели на нескольких наборах всеохватных данных, в частности, мы взяли набор данных исследования «Друзья и семья», в котором изучались казуальные и социальные аспекты небольшого сообщества молодых семей, набор данных сети eToro, охватывающий все финансовые транзакции 1,6 миллиона пользователей социального сообщества трейдеров, и др. Эта же основа была также использована для моделирования потока идей в компаниях и целых городах, а также проведения связей между потоком идей и производительностью (и ВВП), о чем я расскажу в следующем разделе.

Поток идей в компаниях и городах (главы шестая, девятая)

При помощи социометрических бейджей мы можем измерять взаимодействия внутри компаний, а при помощи мобильных телефонов – создавать точные модели плотности социальных связей в городах. Сочетая параметры, взятые из конкретных примеров распространения модели поведения (например, установка и использование приложения или шаблоны покупок), с топологией этих сетей, мы можем построить количественную модель потока идей в этих конкретных социально-сетевых системах. Затем мы можем воссоздать процесс превращения новых идей в новые модели поведения и, соответственно, модели их распространения по всей сети.

Для достижения этой задачи математического моделирования мы должны вспомнить о том, что люди обладают двумя способами мышления: быстрым и медленным (см. третью главу и приложение 3). Это также означает, что люди располагают двумя способами обучения.

В медленном режиме однократного воздействия новой идеи или новой информации будет достаточно для изменения поведения. Пример такой «простой цепной реакции» – распространение нового факта (эта дорога сейчас строится) или слуха («она правда это сделала?!»). Эта же модель характерна и для распространения болезней среди населения. Заразительные идеи, как и инфекционные заболевания, передаются через социальные связи. В модели влияния социальной сети этот процесс представлен в виде волны состояний, переходящих одно в другое.

Нам известно, однако, что бо́льшая часть нашего поведения связана с привычками, формируемыми быстрым мышлением. Простая модель цепной реакции не справляется с выявлением изменений в привычных формах поведения. В режиме быстрого мышления нам обычно необходимо несколько примеров успешного использования новой модели поведения кем-то другим, прежде чем мы захотим сами испытать ее. В этих случаях более верным описанием процесса усваивания привычных «быстрых» типов поведения послужит модель «сложной цепной реакции».

Именно это мы увидели в третьей главе, где мы обсуждали усваивание новых социально-сетевых технологий и мобильных приложений, и эта модель так же точно описывает то, как воздействие окружения стимулирует изменения в режиме питания, политических взглядах и проч. Она представляет собой последовательность переходов между состояниями в пределах модели влияния социальной сети, но в ней сетевые параметры установлены таким образом, чтобы соответствовать этому более консервативному типу распространения идей.

Таким образом, чтобы связать поток информации и идей в социальных сетях с поведенческими изменениями, мы должны учитывать как быстрое, так и медленное мышление. С математической точки зрения это означает, что мы должны рассмотреть две различные модели влияния. В первой версии мы будем использовать допущение простой цепной реакции, согласно которому единичного воздействия идеи достаточно для того, чтобы поведение изменилось. Во втором случае, когда для усваивания новой модели поведения человеку необходимо несколько раз столкнуться с одной и той же идеей, мы будем использовать допущение сложной цепной реакции.

P_Trend – значение потока идей, прогнозирующее вероятность распространения идеи в сообществе, – имеет разные значения в двух наших моделях. Однако между этими моделями есть лишь одно существенное различие – количество положительных примеров, которые должны воздействовать на человека в течение короткого периода времени прежде, чем его поведение изменится. Так, для идей, которые неоднократно появляются в социальной сети в течение длительных периодов времени, наши модели генерируют достаточно схожие между собой шаблоны распространения поведенческих изменений. Самое большое различие между ними заключается в том, что в пределах сложной модели новые типы поведения распространяются гораздо медленнее и поведенческие изменения часто не достигают слабо связанных с внешним миром границ социальной сети. Для многих направлений, таких как моделирование ВВП, разница в скорости между простой и сложной моделями цепной реакции не является проблемой, потому что мы сравниваем стабильные ситуации устойчивых состояний.