Книга: Как вытащить из данных максимум. Навыки аналитики для неспециалистов
Назад: 08 Три «С» дата-грамотности
Дальше: Creativity – творческий подход

Curiosity – любопытство

Первая «С» дата-грамотности – это любопытство. Обычно говорят, что любопытство кошку сгубило, а я говорю – любопытство породило дата-грамотность. Что приходит в голову, когда мы думаем о любопытстве? Я, как отец, в первую очередь вспоминаю о детях. Их любопытство просто безудержно. Они постоянно задают вопросы обо всем на свете. Зачем это им? Они пытаются понять окружающий мир, изучают его. Вырастая, мы теряем любопытство, и это самая настоящая беда. Представьте, что вы сидите за рабочим столом и изучаете данные: часто ли они вызывают у вас любопытство? Увы, мы почти разучились задавать вопросы. Мы видим перед собой данные, усваиваем их и движемся дальше. А если подключить любопытство? Оно открывает множество дверей в мир данных и аналитики.
Согласно определению, любопытство – это «стремление узнать больше о чем-либо».
Это определение сложнее, чем кажется. Давайте начнем с рассмотрения любопытства в свете определения дата-грамотности.
В рамках четырех элементов дата-грамотности «способность читать данные» и «любопытство» связаны, так сказать, родственными узами. Читая данные, то есть изучая их и понимая, что именно они содержат, мы должны испытывать любопытство. А затем можно задавать вопросы, чтобы побольше узнать о представленных нам данных. После чего мы продолжаем чтение, и цикл запускается заново.
Хороший пример чтения данных с целью «побольше узнать» – топ-менеджер, уверенный в своей дата-грамотности. Когда ему приносят отчет или сводку KPI, он читает данные, его любопытство возрастает, и он начинает задавать вопросы сотруднику, который представил данные, – чтобы получить новые или уточнить имеющиеся. Это должно стать нормой не только на уровне топ-менеджмента, но и на всех уровнях организации.
Любопытство ведет нас от чтения данных к работе с данными. Прочитав информацию и поняв ее, мы начинаем работать с данными, чтобы найти еще больше информации и получить некие полезные результаты. А затем – новый цикл. Чтобы наглядно продемонстрировать, как связаны работа с данными и любопытство, вспомним про визуализации. Например, когда мы строим сводки или панели мониторинга, то в зависимости от используемого ПО (Qlik или Tableau) можем использовать различные фильтры, раскрывающиеся списки или вкладки, чтобы продолжать работу с данными. Любопытство позволяет нам взглянуть на таблицу и задуматься о том, что еще она может содержать. Пример такой сводки приведен на рис. 8.1.

 

 

Эта таблица – мои тренировки для конкретного забега, 160-километрового ультрамарафона в Лидвилле (штат Колорадо), через сердце Скалистых гор. Любопытство заставляет нас заинтересоваться: почему одни столбики на диаграмме расстояний больше, чем другие? Что означает разница в цвете для разных тренеров? Я люблю одних больше, чем других, или одни тренировки оказались более эффективными, чем другие? Возникает бесконечная череда вопросов. Любопытство подсказывает, что нужно разбить общую визуализацию на части, отфильтровать данные и получить ответы на вопросы – или во всяком случае хотя бы запустить процесс и составить список новых вопросов.
А это уже ведет нас к третьему элементу дата-грамотности, то есть к анализу данных. Давайте взглянем на другой пример визуализации (рис. 8.2): что происходило с реальными ценами на недвижимость и размером комиссионных?
Представьте, что вы агент по недвижимости. Вы хотите узнать тенденции: колебания цен, изменения в комиссионных и т. д. В этом случае у вас тоже возникают вопросы, например: что приводило к росту средних цен в периоды, отмеченные более темным цветом? Также можно посмотреть на средний процент комиссионных. Интересно, он остается неизменным или меняется? У нас на руках есть все данные, и любопытство заставляет нас их анализировать, задавать все новые вопросы, получать новые ответы, принимать верные решения.
Последний элемент – это, конечно, общение на языке данных: еще один кусочек, без которого мозаика не сложится полностью. А эффективная коммуникация невозможна без любопытства. Почему? Потому что оно подстегивает нас задавать вопросы – в том числе и самим себе. Сможет ли та или иная аудитория полноценно воспринять эти данные, если я изложу их вот так? Каковы особенности аудитории, с которой мне предстоит общаться? Долго ли я смогу держать внимание собеседников? Какие статистические данные мне стоит использовать? И т. д. и т. п.
Итак, первую «С» дата-грамотности можно связать со всеми элементами. Далее давайте рассмотрим, какое отношение любопытство имеет к аналитическим методам.
Переход к четырем уровням аналитики не должен быть слишком сложным. Как вы, конечно, помните, эти четыре уровня представляют собой дескриптивные (описательные), диагностические, предиктивные (предсказательные) и прескриптивные (предписывающие) методы анализа. Любопытство должно помогать нам расширять эти уровни и при необходимости переходить с уровня на уровень. Чтобы было понятнее, давайте вернемся к визуализации распространения холеры, которую мы уже рассматривали. Как вы помните, эта визуализация способствовала как успешной борьбе с болезнью, так и развитию журналистики данных. Так при чем же здесь любопытство?

 

 

 

Во-первых, вспомним про описательный анализ и для начала представим себе гипотетический сценарий: допустим, любопытство подтолкнуло Джона Сноу составить визуализацию вспышки холеры. Я прямо вижу, как он сидит и рассуждает: «Где происходит вспышка? Есть ли у нас данные, которые это показывают?» Эти вопросы помогли ему составить прекрасную визуализацию. Мог ли он задавать другие «дескриптивные» аналитические вопросы? Например: «Влияет ли болезнь на одни группы населения больше, чем на другие?» Или: «Есть ли в городе другие районы с похожим распространением болезни?» Возможно, именно это помогло Джону Сноу пойти дальше и придумать решение проблемы.
В сфере четырех уровней аналитики, и в особенности на описательном уровне, нужно отметить ключевую роль визуализации данных:
● она порождается любопытством;
● она порождает еще большее любопытство.
Это любопытство и помогло Джону Сноу разгадать загадку вспышки холеры. В этом случае, как и во многих других, визуализация оказалась прекрасной отправной точкой для принятия очень важных решений. Мы не имеем права недооценивать этот мощнейший инструмент и одну из ключевых составляющих данных и аналитики.
Второй уровень – диагностический. Могу представить, как Джон Сноу продолжает задавать очень серьезные вопросы, также порожденные любопытством. «Почему так мало случаев заболевания на пивоварне?» – мог бы он спросить. Удачный вопрос: возбудитель холеры передается с водой.
С помощью диагностических методов можно выяснить, что рабочие на пивоварне пили не воду, а пиво. Следующий возможный вопрос: «Откуда взялись очаги болезни в определенных районах?» Этот диагностический вопрос – тоже прямое следствие любопытства – отсылает к визуализации и подталкивает к поиску ценных знаний.
Итак, мы видим, что визуализация данных – это не только ответ, сокровище, в которое упирается радуга, но и отправная точка. Визуализация не дает нам ответов на вопросы, которые мог задавать Джон Сноу, – она дает нам отправную точку, и это крайне важно. Благодаря этому мы переходим к причинам, стоящим за результатами дескриптивного анализа. Джон Сноу поставил множество вопросов, анализируя данные. Задав вопросы, мы начинаем копать глубже в поисках ответов. Последний вопрос Джона Сноу мог быть таким: «Почему мы наблюдаем так много случаев холеры вокруг источника воды?» Источником была водоразборная колонка. Так и было обнаружено, что насос на Брод-стрит находился всего в нескольких метрах от открытой выгребной ямы, а вода заражена из-за попавшей в нее грязной пеленки… А отсюда мы переходим на третий уровень, к предиктивному анализу.
Предиктивный анализ позволяет нам успешно «препарировать» как диагностический, так и дескриптивный уровни. Мог ли Джон Сноу построить какие-нибудь прогнозы? Описательный анализ, сделанный Джоном, позволяет сделать наблюдения, которые затем приводят к вопросам. Сформулировав эти вопросы, мы ищем возможные ответы (решения) и получаем возможность построить собственные модели. Что произойдет, если убрать источник загрязнения (грязную пеленку) из воды? В нашем случае это существенно помогло. Наше любопытство позволяет строить и другие гипотезы, которые могли бы быть проверены во время вспышки холеры.
Например, мы могли бы предположить, что дело не в пеленке как таковой, а в насосе. Можно было бы попробовать его заменить. В нашем случае это ничего бы не дало, но так устроена итеративная аналитика. Мы пытаемся что-то сделать, получаем результат и продолжаем проверку. Вряд ли нас наняли бы на работу, заяви мы: забудьте про грязную пеленку, давайте просто заменим насос.
Еще один факт, который вызывает любопытство и позволяет выдвинуть гипотезу: работники пивоварни пили пиво и при этом не болели холерой. Мы можем предположить – а что, если бы все жители Брод-стрит пили вместо воды любимый местный напиток? Вспышка холеры пошла бы на спад? По всей вероятности, так бы и случилось, и людям, наверное, понравилось бы такое решение – однако это не помогло бы нам выявить источник проблемы. Мы обнаружили так называемую ложную корреляцию – когда два события кажутся связанными, но на самом деле это не так. Иными словами, корреляция не означает причинно-следственной связи, и путать одно с другим – типичная аналитическая ошибка, которой лучше избегать. В нашем случае предположение, что, если бы люди пили пиво вместо воды, это бы помогло, само по себе верно – но на деле не решает никаких проблем и, возможно, даже приводит к новым. А если бы спрос на алкоголь так вырос, что пивоварне пришлось бы брать воду из той же колонки? Мы бы вернулись к тому, с чего начали.
Последний уровень аналитики – прескриптивный. Предписывающие методы, если можно так выразиться, «разрешают» данным и технологиям определять наши дальнейшие действия. В этом случае любопытство необходимо, чтобы задавать соответствующие вопросы: что нам говорят технологии? Что нам показывают прогностические и прескриптивные методы? И не стоит забывать о стремлении проверить предположения, сделанные на моделях.
Последний аспект любопытства, который стоит рассмотреть, уже упоминался выше. Это корреляция и причинно-следственные связи. Если мы любопытны и задаем вопрос за вопросом, то просто не имеем права попасть в ловушку, перепутав эти два понятия. Всю жизнь мы сталкиваемся с занятными взаимоотношениями между данными. Когда мы с любопытством изучаем данные, нам может показаться, что А ведет к Б.
Примеров масса, но я хотел бы поговорить именно о том, что связано с бизнесом. Ложная корреляция – предполагаемая связь между двумя событиями – это термин, который надо непременно запомнить.
Представьте себе, что вы директор по маркетингу крупной компании – производителя напитков (например, Pepsi или Coca-Cola). В апреле текущего года вы запустили отличную рекламную кампанию, рассчитывая, что набрели на настоящую золотую жилу. Запустив кампанию, вы отправились туда, куда вас повело любопытство: «Помогла ли наша последняя кампания повысить продажи и, следовательно, прибыль?» Это, разумеется, прекрасный и закономерный вопрос, но будьте осторожны. Любопытство заставляет вас построить визуализацию данных, чтобы посмотреть на результат. Вы видите, что доходы в период с мая по август растут. Так как вы запустили кампанию в апреле, вы думаете, что ваше любопытство вознаграждено: ура, вот и ответ! Вы действительно провели успешную кампанию. Но есть одна проблема: вы предположили, что доходы выросли благодаря рекламной кампании. Но дальше ваше любопытство не пошло – возможно (только возможно!), именно потому, что в игру вступило ваше личное предвзятое отношение. Вы увидели то, что хотели увидеть. Но что, если маркетинговая кампания тут вообще ни при чем, а дело лишь в том, что потребителям на двух основных рынках – европейском и североамериканском – захотелось пить, поскольку наступило лето? Может быть, людям просто жарко и они пьют больше своих любимых освежающих напитков? Нужно следить, чтобы любопытство не «выключалось» на каком-либо этапе, а продолжало сопровождать нас на всех четырех аналитических уровнях. Так мы будем уверены, что не остановились слишком быстро, не стали полагаться на неполную и/или некорректную информацию и не сделали неудачных прогнозов.
Назад: 08 Три «С» дата-грамотности
Дальше: Creativity – творческий подход