Книга: Социальная физика. Как Большие данные помогают следить за нами и отбирают у нас частную жизнь
Назад: Влияние между субъектами
Дальше: Прогнозирование тенденций в социальных сетях (глава вторая)

Моделирование влияния через различные каналы (глава третья)

Современные смартфоны, такие, как те, что используются во многих моих исследованиях, способны охватывать различные виды социальных сетей при помощи встроенных в них датчиков. К ним относятся списки контактов, люди, которые часто находятся рядом, люди, которые разделяют те же привычки мобильности. Каждая из этих сетей подвергает индивида влиянию новых идей и, следовательно, дает возможности для социального обучения.

Экспериментальные результаты наших исследований «Друзья и семья», «Социальная эволюция» и др. показали, что степень подверженности воздействию окружения, которое уже приняло определенную модель поведения, можно использовать для точной оценки вероятности того, что индивид усвоит ту же модель, по крайней мере если это касается типа поведения, действия и результаты, являющиеся частью которого, поддаются наблюдению. Следующий вопрос, однако, заключается в том, как мы можем расширить модель влияния так, чтобы она работала с различными параметрами влияния в каждой модальности, что позволило бы прогнозировать поведенческие изменения, возникающие под влиянием нескольких каналов воздействия.

Аспирант Вэй Пань, работая совместно с Надавом Ахарони и мной, разработал простую вычислительную модель для более точного прогнозирования поведенческих изменений, в которой используется составная сеть, вычисленная из разных сетей, считываемых при помощи телефонов. Наша модель также отражает индивидуальную вариативность и экзогенные факторы в изменении поведения. Мы демонстрируем важность учета всех этих факторов в прогнозировании поведенческих изменений и, наконец, приходим к выводу, что изменения в поведении действительно можно предсказывать. Авторами данной формулировки являются Пань и др.



Введение: Мои последние исследовательские проекты показали, что степень воздействия социальной сети коррелирует с индивидуальными поведенческими изменениями, такими как увеличение веса, участие в голосовании и т. д. Здесь нас интересует расширение возможностей модели влияния, касающихся сетевого прогнозирования, для решения проблем, которые связаны с использованием данных множества сетей различных типов, считываемых при помощи датчиков (например, датчиков смартфонов); это позволит нам получать более точные и более общие прогнозы поведенческих изменений.

Заимствовать уже имеющиеся инструменты из широкомасштабных исследований социальных сетей и применять их в моделировании и прогнозировании изменений в поведении трудно по следующим причинам:



1. Базовая сеть не полностью доступна для наблюдения. В данном случае наша ключевая цель – выявить оптимальную составную сеть, то есть сеть, которая наилучшим образом прогнозирует изменения в поведении, из нескольких слоев сетей, легко считываемых при помощи датчиков (например, встроенных в современные смартфоны), а не основываться на предположении, что та или иная сеть является «реальной» социальной сетью, для объяснения изменений в поведении.

2. В поведенческих изменениях присутствуют экзогенные факторы. Сетевой анализ поведенческих изменений часто предполагает, что передача моделей поведения в наблюдаемых сетях является единственным механизмом усваивания. Это, конечно, не соответствует действительности; есть средства массовой информации и невидимые сети, которые могут провоцировать изменения в поведении. Важным достижением нашей работы в этой области является то, что мы показываем, что создание эффективного инструмента прогнозирования возможно, несмотря на подобную хаотичность.

3. Индивидуальная вариативность в поведенческих изменениях может быть настолько значительной, что любой сетевой эффект может оказаться недоступным для выявления на основе данных. Например, некоторые люди усваивают новые модели поведения быстро, а другие – медленно.



В этом разделе я опишу нашу модель для выявления поведенческих изменений в сети. Здесь и далее G обозначает матрицу связности графа G. Каждый пользователь обозначается как u ∈ {1, …, U}. Каждая модель поведения обозначается как a ∈ {1, …, А}. Двумерная случайная величина xua выражает состояние усваивания (например, установка приложения): xua = 1, если a усваивается пользователем n, 0 – если нет. Как и в предыдущем разделе, различные сети социальных отношений, которые могут быть выявлены при помощи мобильных телефонов, обозначаются как G1, …, GM. Целью нашей модели является вывод оптимальной составной сети Gopt, которая будет опережать остальные социальные сети-кандидаты по качеству прогнозирования. Вес ребра ei, j графа Gm обозначается как wi, jm. Вес ребра Gopt просто обозначается как wi, j.

Одной из базовых идей нашей модели является неотрицательное накопляемое предположение, которое отличает нашу модель от других линейных моделей смешивания. Определим Gopt как: Gopt = Σm αm Gm, где ∀ m, αm ≥ 0.

Интуитивная основа этого неотрицательного накопляемого предположения заключается в следующем: если два узла соединены сетью определенного вида, их модели поведения могут (или не могут) коррелировать между собой; с другой стороны, если два узла не соединены сетью определенного типа, отсутствие связи между ними не будет оказывать ни положительный, ни отрицательный эффект на корреляцию между устанавливаемыми приложениями. Таким образом, α1, …, αm являются неотрицательными весовыми значениями для каждой сети-кандидата в описании оптимальной составной сети. Мы продолжаем рассчитывать потенциал работы сети pa(i):

pa(i) = Σj ∈ N(j)wi, jxja, где сосед узла i в сети обозначается N(i) = {j | ∃ m s. t. wi, jm ≥ 0}.

Потенциал pa(i) также можно разложить на потенциалы из различных сетей. Мы можем рассматривать pa(i) как потенциал i, который демонстрирует новую модель поведения, приобретенную в результате наблюдения за соседями в составной сети. И, наконец, наша условная вероятность выражается как:

Prob(xua= 1 |xu’a: u’ ∈ N(u)) = 1 – ехр(–su – pu(u)), где ∀ u, su s ≥ 0. su выражает индивидуальную восприимчивость к поведенческим изменениям. Мы используем экспоненциальную функцию по двум причинам:



1. Монотонность и вогнутость f(х) = 1ехр(–х) совпадает с результатами недавних исследований поведенческих изменений у людей, вызванных социальным влиянием, которые предполагают, что вероятность усваивания возрастает с постепенно уменьшающейся скоростью при увеличении количества внешних сетевых сигналов.

2. Она образует задачу вогнутой оптимизации при использовании метода максимального правдоподобия при обучении модели.



Мы по-прежнему должны учитывать внешние факторы, такие как популярность той или иной модели поведения. Мы можем отразить их присутствие в модели путем введения виртуального графа Gp, который можно легко включить в нашу структуру составной сети. Gp строится путем добавления виртуального узла u +1 и одного ребра eu+1’u для каждого фактического пользователя u. Соответствующий вес каждого ребра wu+1’u – положительное число, описывающее популярность модели поведения.

Включение этих внешних факторов также повышает точность измерения сетевых эффектов по значимой причине. Рассмотрим, например, сеть из двух узлов, соединенных одним ребром, предположив, что оба узла демонстрируют некую модель поведения. Если такой тип поведения обладает большой популярностью, то тот факт, что оба эти узла проявляют такое же поведение, может не являться следствием сильного сетевого эффекта. И наоборот, если эта модель поведения встречается очень редко, то тот факт, что оба узла демонстрируют такой тип поведения, предполагает наличие сильного сетевого эффекта. Таким образом, введение экзогенных факторов действительно помогает нашему алгоритму лучше калибровать весовые значения сети.

Обучение модели: На этапе обучения наша цель – определить оптимальные значения для α1, …, αM и s1, …, su.

Мы придаем ей форму оптимизационной задачи, максимизируя сумму всех условных правдоподобий. Это вогнутая задача оптимизации. Следовательно, глобальная оптимальность обеспечена, и есть эффективные алгоритмы, которые можно масштабировать для больших наборов данных.

Экспериментальные результаты: В таких экспериментах, как прогнозирование установки и использования мобильных приложений, этот метод позволяет делать прогнозы относительно будущего использования приложений с точностью, примерно в пять раз превышающей точность байесовской оценки на основе демографической статистики. Мы подчеркиваем, что наш алгоритм не решает задачу причинности сетевых эффектов, то есть мы не стремимся понять возможные причины того, почему сетевые соседи имеют схожие модели поведения. Причиной может служить либо диффузия (например, «так мне сказал мой сосед»), либо гомофилия (например, сетевые соседи обладают похожими интересами и личностными характеристиками), либо какая-нибудь третья общая причина.

Назад: Влияние между субъектами
Дальше: Прогнозирование тенденций в социальных сетях (глава вторая)