20. Корреляция не гарантирует причинно-следственную связь
Обычно данные не отвечают на вопрос «почему?», а только на вопрос «что?».
Возможно, вам доводилось слышать это утверждение ранее, но вы не вполне понимаете его смысл. Тогда скажем иначе: если кто-то утверждает, что нет дыма без огня, он ошибается.
Корреляция между двумя явлениями означает, что, если мы стали чаще видеть одно из них, мы также отмечаем изменение частоты, с которой встречаем второе. Причинно-следственные отношения гораздо сильнее. При этом, если мы отмечаем одновременное изменение двух количественных показателей и предполагаем, что один из них стал причиной второго, это предположение вполне может оказаться ошибочным.
Следующие три примера иллюстрируют корреляцию: ваш индекс массы тела и вероятность инфаркта; количество сообщений в твиттере о телевизионной программе и число зрителей этой программы; потребление сыра на душу населения и число смертельных случаев, когда люди умирают, запутавшись в простынях в собственной кровати. Какие из этих отношений также относятся к числу причинно-следственных? Для нас чрезвычайно важно это знать, так как процесс принятия решений – это давление на воображаемые рычаги. Нажимая на них, мы должны знать, что случится в итоге. При этом мы часто получаем чудовищные советы от людей, которые путают причинно-следственные отношения и корреляцию.
Давайте разберемся с каждым из приведенных примеров в обратном порядке. Последний пример сначала кажется полным абсурдом. Это одна из корреляций, созданных Тайлером Вигеном на его весьма забавном сайте Spurious Correlations («Ложные взаимосвязи»), где еще много подобных примеров сочетания вещей, которые, кажется, не имеют между собой ничего общего. Это результат доступности данных в современном обществе. Мы измеряем тысячи трендов, и вдруг оказывается, что у явлений, никак между собой не связанных, в точности совпадает динамика изменений. Этого можно избежать, если выдвинуть гипотезу, которую вы хотите протестировать, прежде чем изучать корреляции. Об этом речь в книге пойдет далее.
Ложные корреляции – это то, что получается, когда вы просто собираете большой массив данных и начинаете копаться в них в поисках взаимосвязей. Вы обнаружите несколько важных причинно-следственных отношений и целый ряд бессмысленных взаимосвязей. Компании постоянно отвлекаются на этот процесс. Конечно, в приведенном примере вы вряд ли поверили, что между этим двумя явлениями может быть причинно-следственная связь, но как быть в других ситуациях, когда наличие подобной связи кажется вполне возможным?
Статистика по сообщениям в твиттере и числу зрителей телевизионного шоу – более сложный случай. Между этими показателями может быть причинно-следственная связь, но при этом возможны три сценария.
• Эффект социального воздействия: когда пользователи пишут о телевизионном шоу в твиттер, это стимулирует других смотреть передачу.
• Сплетни о ТВ: когда зрители смотрят телешоу, им хочется написать об этом в твиттер.
• Высокое качество: у интересных телевизионных шоу большая зрительская аудитория, и они вызывают оживленное обсуждение.
Все это действительно важно, если вы работаете в телевизионной компании. Как вы используете социальные медиа? Велико искушение поверить в первый сценарий, инвестировать в то, чтобы побудить пользователей писать сообщения в твиттер, и ждать, что ваша аудитория вырастет. Многие компании примерно так же обосновывали выделение бюджета на продвижение в социальных сетях и обнаружили, что, когда они искусственно стимулировали количество сообщений в социальных сетях, ничего не происходило. Может быть, дело в том, что причинно-следственная связь здесь обратная: люди пишут сообщения о том, что они делают. В этом случае социальные медиа по-прежнему остаются полезным инструментом, но только для неформального аудита того, что собираются делать ваши потребители.
Третий сценарий также выглядит вполне достоверным. Он означает, что оптимальный способ потратить деньги – это вложить их не в социальные медиа, а в создание более качественного сценария и приглашение хороших актеров.
Между этими тремя сценариями может существовать взаимосвязь: А становится причиной В, В – причиной А или С (неизмеряемый показатель) становится причиной как А, так и В. Определением этих взаимосвязей занимается наука эконометрика. При наличии достаточного массива данных можно проверить две вещи: заметен ли эффект, когда А происходит до В, но не наоборот, когда В происходит до А (тогда можно предположить, что А становится причиной В); а также при прочих равных условиях (например, качестве) по-прежнему ли А вызывает В?
На основании доказательств, собранных на протяжении определенного периода и путем многочисленных наблюдений, можно с определенной долей уверенности утверждать наличие взаимосвязи между показателем индекса массы тела и вероятностью инфаркта. Мы можем быть уверены, что инфаркт не повышает индекс массы тела, так что В не является причиной А. Кроме того, этот эффект по-прежнему присутствует, когда все остальные переменные (генетический набор, стресс на работе и тому подобные) остаются постоянными. И эта взаимосвязь проявляется с течением времени во многих местах.
У вас вряд ли хватит времени, денег или массива данных, чтобы установить причинно-следственные отношения между абсолютно всеми аспектами и показателями вашего бизнеса. Но есть два неформальных теста, которые вы можете провести.
• Проверка практикой: если кто-то говорит вам, что А становится причиной В, может ли этот человек привести убедительные доказательства, что так оно и есть? Если никто не может дать достаточно достоверного объяснения, скорее всего, есть еще какой-то фактор.
• Проверка на повторяемость: если, как вам кажется, вы обнаружили закономерность, обратите внимание, повторится ли она в следующем месяце или в другом вашем офисе или с другими клиентами.
Некоторые причинно-следственные отношения интересны, но не важны. Если вы установили, что А становится причиной В, от этой информации мало пользы, так как вы не можете изменить фактор, вызывающий этот эффект. Поручив выполнение задачи лучшим сотрудникам, вы можете быть уверены по крайней мере в том, что она будет исполнена в срок, при этом вы не можете повысить уровень надежности, поручив им больше работы, так как ваши сотрудники и так загружены. Вам придется найти другую причинно-следственную связь, на которую вы можете как-то повлиять: нанять новых сотрудников, инвестировать в обучение персонала или более эффективно делегировать рабочие задачи.
На практике бывает довольно сложно отличить корреляцию от причинно-следственных отношений, но не нужно быть специалистом по эконометрике, чтобы принимать более качественные решения. Просто примените два описанных выше теста, а затем решите, можете ли вы что-то сделать. И если вы едите много сыра, постарайтесь не запутаться в простынях, когда отправляетесь ко сну (шутка!).