Книга: Графики, которые убеждают всех
Назад: Знать основы статистики
Дальше: Создание новых данных внутри датасета

Быть аналитиком. Задавать вопросы

Люди учатся на аналитиков данных несколько лет. Все знания, которые они получают, нам не нужны – достаточно основ.
Как в целом устроен процесс изучения ваших данных? Обычно он состоит из двух основных подходов:
• статистического
• визуального

 

Статистические методы используются для того, чтобы узнавать:
• количество значений в каждой категории
• распределение значений внутри категории: какие значения встречаются чаще, какие – реже
• суммирующие показатели: сумма всех значений, сумма за периоды, суммы по категориям, среднее и медиана
• максимальные и минимальные значения и так далее

 

Визуальный анализ – это нахождение характера и закономерностей изменения данных в процессе их графического изображения. Мы представляем ряды чисел в форме графиков. Это дает нам возможность буквально увидеть данные.
Существует огромное количество сложных и изощренных статистических методов, позволяющих выявить и проанализировать взаимосвязи между показателями. Но и они в качестве наглядного представления результатов часто используют визуальный метод.
Визуальный анализ позволяет быстро обнаруживать взаимоотношения внутри данных. Именно он помог нам выяснить, что происходило с долями продаж сыров в примере из первой главы.
Визуальный анализ позволяет быстро понять, как распределены значения, даже когда данных очень много. Он дает увидеть динамику и характер изменения показателей во времени. С помощью визуального анализа легко обнаружить отсутствие данных по отдельному срезу.
Общепринятого алгоритма статистического и визуального анализа данных не существует. Если пытаться перебрать все возможные виды переменных, срезов, фильтров и их сочетаний, то число комбинаций будет стремиться к бесконечности. Создание и анализ всех этих визуальных форм будут занимать слишком много времени. Поэтому сначала проверяют важное, а потом ищут интересное. Что есть важное и интересное, может сказать только эксперт, который хорошо разбирается в интересующей вас теме. При этом эксперт должен понимать вашу задачу и контекст, в котором существуют данные.
Поэтому автоматический инструмент анализа данных до сих пор не создан. А вот логику статистического и визуального анализа вполне можно понять. Для этого загрузите свою таблицу в Google Sheets (Гугл Таблицы). Затем нажмите в правом нижнем углу кнопку «Анализ данных». Сначала вы увидите ключевые числа, описывающие датасет. Ниже – сводные таблицы и графики. Давайте загрузим в Гугл Таблицы данные о зарплате тренеров и результатах команд, участвовавших в Чемпионате мира по футболу-2018:

 

 

В правом нижнем углу рабочей области есть зеленая кнопка «Анализ данных». Выделим столбец с зарплатами, нажмем на кнопку:

 

 

Сверху мы получим результаты статического анализа – ключевые значения, описывающие столбец с числами:

 

 

Теперь выделим всю таблицу. Мы получим гораздо больше результатов автоматизированного анализа:

 

 

 

 

 

 

Как видите, весьма неплохо! Мы получили и ключевые значения, описывающие датасет, и сводные таблицы, и поисковые визуализации. Скорее всего, именно такие графики мы бы построили сами, пытаясь понять данные.
Конечно, они далеки от оптимальных и по выбору, и по оформлению. В гистограмме, скажем, хочется поменять диапазоны интервалов на кратные круглым значениям (раньше они были кратны 800000):

 

 

Работа функции «Анализ данных» хорошо показывает процесс анализа данных и основные его компоненты. В том числе создание сводных таблиц, необходимых для получения агрегированных, обобщенных данных. Что это такое и зачем нужно, мы обсудим немного позже.
В анализ обычно включаются основные показатели:
• количество значений
• максимальное, минимальное, среднее значение
• топ-5, топ-10
• распределение значений внутри категории
• динамика
• какой процент к целому составляют значения
• разница в абсолютных цифрах и в процентах (например, со средним/прошлым)

 

Итак, как найти важное и интересное в вашем датасете?
Для начала – понять, какие значения в вашем наборе данных встречаются чаще, какие – реже. Выявить тенденции и тренды, понять, что из них выбивается. Затем нужно начать задавать вопросы, проверять гипотезы. Общайтесь со своим набором данных, как вы общались бы с человеком.
Вопросы могут быть такими:
• Кто лидеры рынка? Отстающие?
• В каком регионе максимальные продажи?
• Какой средний чек?
• Кто лидер по KPI?
• Как изменился уровень продаж за последние полгода?

 

Или гипотезы:
• Действительно ли есть зависимость между рекламной кампанией и ростом конверсии?
• Правда ли, что на конверсию больше всего влияет канал продаж?

 

Вы можете задавать датасету все вопросы, которые кажутся вам важными. Возможно, в процессе визуального анализа вы зацепитесь за что-то. У вас могут возникнуть новые мысли, которые вы захотите проверить. Продолжайте этот процесс, пока не поймете, что узнали все, что вам было нужно.
Именно из ответов на ваши вопросы и результатов проверки гипотез появятся основные мысли – сообщения, которые мы будем представлять в виде графиков.
Назад: Знать основы статистики
Дальше: Создание новых данных внутри датасета