21. Когда информации слишком много
Как избежать ступора при анализе огромного количества данных?
В середине нулевых Netflix объявила о призе в миллион долларов любому, кто повысит эффективность рекомендательного алгоритма компании на 10 %. Специалисты по работе с данными со всего мира принялись за работу. Через три года, 21 сентября 2009 года, приз получила команда под названием BellKor’s Pragmatic Chaos.
Как им это удалось? Вот что говорится в статье, опубликованной одним из членов команды Йехудой Кореном: «На основе архитектуры ограниченной машины Больцмана (RBM) мы применили новую модель RBM с повышенной точностью путем обусловливания видимых элементов…»
Однако давайте прежде всего обсудим, почему это стало такой проблемой. Компания Netflix предлагает несколько тысяч фильмов и телевизионных шоу, поэтому ей сложно прогнозировать, что конкретному пользователю понравится больше всего. Когда вы совершаете покупки в интернет-магазине Amazon или на похожих сайтах, у вас есть подсказка в виде рекомендаций: «Пользователи, купившие этот товар, также покупают…» Для компании Netflix этот способ слишком ненадежный, так как ее пользователи выбирают, как они проведут целый вечер. Когда вы заходите на сайт Netflix, компания должна предложить вам идеальный фильм именно для вас, основываясь на имеющихся о вас знаниях: как правило, это какие кинокартины вы смотрели до этого, как вы их оценили, насколько часто вы выбираете фильмы одной категории, а также некоторые общие факты, например где вы территориально находитесь и какое у вас время суток.
Научная сторона вопроса
Эта проблема не кажется особо сложной, пока ее не пытаются решить. Тогда вдруг выясняется, что количество разных сочетаний этих переменных исчисляется миллиардами. При этом компания Netflix не исключение. Большинство решений, которые нам приходится принимать в реальной жизни, очень похожи: например, на работе вы получаете задачу изменить что-то, при этом зачастую вы ставите перед собой конкретную цель, которой хотите добиться. Хотя, к сожалению, вряд ли вам предлагают миллион долларов за улучшение работы на 10 %. Мы изучили взаимосвязь, свойство двух переменных, на основании которого делается прогноз. Когда мы говорим: «чем больше этого, тем больше будет этого», в простейшем математическом виде это выглядит так:
y = a + bx.
Это уравнение наклонной прямой. Можно измерить (или наблюдать) значение х, умножить его на b, прибавить а и получить значение y (специалисты по прогнозированию также могут использовать логарифм х или квадрат х или применять другие приемы, но это приводит только к усложнению). Линия наилучшего соответствия, проходящая через все точки (речь об этом уже шла в ), показывает, насколько нужно увеличить значение х, чтобы добиться увеличения значения y. В 2010 году британское правительство использовало этот метод, чтобы рассчитать, что повышение пошлин на сигареты (х) на 1 % приведет к увеличению суммы налоговых сборов (у) на $33 млн.
В реальной жизни подобной точности не бывает никогда. Поэтому при построении прогнозов на основании фактов уравнение будет выглядеть скорее следующим образом, когда мы учитываем множество разных факторов, влияющих на значение y, но не можем измерить их все:
y = a + b1x1 +b2x2 +… + погрешность.
В данном случае «погрешность» не означает, что вы сделали ошибку, это просто способ обозначить совокупность всех других факторов, которые могут оказывать влияние на значение y, которые вы не смогли измерить, и игнорировать их. Желательно, чтобы эта погрешность была минимальной, но она необходима для анализа всех плюсов и минусов, потому что обычно нас интересует: «А если мы добавим немножко этого, то что получится?» В случае с расчетами британского правительства можно было игнорировать другие факторы, влияющие на повышение сбора налогов при повышении пошлины на сигареты на 1 %, но можно предположить, что правительство не получило бы дополнительные налоговые сборы в объеме $330 млн, если бы подняло пошлину на сигареты на 10 %. Скорее всего, это привело бы к тому, что покупатели ограничили бы свои расходы, бросили курить вообще, начали бы покупать табак, который не облагается таможенной пошлиной, и так далее. Мы свели принятие решения к вероятному влиянию одного фактора на другой единственный фактор.
Стоит ли идти в бар?
Когда я решаю, хочу ли я вечером пойти в бар, это зависит от многих обстоятельств. Я думаю, а кто еще пойдет, а в какой именно бар. Кроме того, это зависит еще от погоды, от того, насколько тяжелым у меня выдался день на работе, от моего финансового положения, от расположения бара и так далее.
При этом мы чудесным образом постоянно принимаем решения и обходимся без построения графиков и диаграмм. Часто мы успешно справляемся с выбором фильма, который хотим посмотреть, и без помощи рекомендательного алгоритма компьютера. В реальной жизни мы воплощаем несовершенную версию уравнения y = a + bx на основе эвристических правил, навешиваемых ярлыков, которые действуют быстро, но не всегда правильно. Например, нам попадается плохой фильм или мы скучаем на вечеринке, и мы сожалеем о том, что не выбрали что-то другое. «А ведь казалось, что это такая замечательная идея, – думаем мы. – Ну ладно, учту на будущее». Эвристическое правило оказалось не на высоте. Мы сделали вывод из ситуации и изменили наше отношение, чтобы в следующий раз поступить иначе.
В бизнесе эвристический подход выражается в том, что вы поддерживаете какие-то решения скорее потому, что они кажутся вам удачными, а не потому, что вы опираетесь на проверенные факты. Если опираться только на факты, то можно завязнуть на стадии анализа данных. Так как же научиться принимать хорошие решения, даже если у вас нет степени по эконометрике?
1. Если какое-то решение очевидно, действуйте. Это простой принцип, но ему редко следуют. Часто на совещаниях при решении какого-то вопроса мы не можем сдвинуться с места из-за отсутствия информации, которая при всей своей интересности в любом случае не повлияла бы на решение. Например, вам нужно сделать сайт и вы решаете, стоит ли нанять для выполнения этой работы Билла. И тут кто-то предлагает подождать недельку, потому что тогда освободится Эмма и можно будет вернуться к обсуждению этого вопроса. Стоп! Если бы у Эммы была возможность взяться за работу сегодня, вы бы все равно остановили выбор на кандидатуре Билла? Если да, то принимайте решение не откладывая в долгий ящик.
2. Менее жесткая версия этого принципа также поможет вам принимать решения. Что больше: затраты на получение нужной вам информации (потраченное время, неудобства, возможно, необходимость платить за данные) или потенциальная ее ценность, необходимая для повышения качества вашего решения? Если первое, расслабьтесь. Приз Netflix наглядный тому пример. Победители предложили продвинутое решение, но их улучшения так никогда и не были реализованы. Почему? Потому что дополнительная точность не оправдывала тех технических усилий, которые требовались для осуществления этой идеи.
3. Исключайте варианты путем сравнения. Если у вас есть пять возможных вариантов, не пытайтесь сравнивать все сразу, сравнивайте по парам, опираясь на четкий набор критериев. Если вариант А лучше, чем вариант В, нет необходимости сравнивать варианты В и С, потому что для принятия решения важно, какой из вариантов – А или С – устроит вас больше.
4. Если вы уверены только в каком-то одном факторе, измените его и подождите, пока у вас не появится новая информация, чтобы взяться за другие аспекты. Это не идеальный вариант для получения оптимального результата, но это один из способов двигаться вперед, используя данные. Если вы заняты крупным проектом с множеством меняющихся составляющих и, исходя из находящихся в вашем распоряжении данных, понимаете, что изменение одного фактора, притом что все другие останутся неизменными, – это хорошее решение, вносите это изменение и анализируйте следующую меняющуюся составляющую в следующем месяце. Это принцип гибкой методологии разработки (agile), о которой мы поговорим подробнее в .
Понимание, как собирать и анализировать данные, лишь половина дела. Знание, как использовать их, чтобы прояснить ситуацию, а не окончательно всех запутать, – это дополнительный навык, который, возможно, еще более ценен.