Книга: Графики, которые убеждают всех
Назад: Изменение во времени
Дальше: Корреляция/взаимосвязь

Распределение

Графики, показывающие распределение, используют реже, чем стоило бы.
Гистограмма – классический способ показать распределение данных внутри одного ряда. Она демонстрирует, сколько значений переменной попадает в последовательные интервалы. Есть несколько основных правил использования гистограммы.
1) В большинстве ситуаций интервалы на порядковой шкале должны быть равными. Так распределение считывается наиболее наглядно:

 

 

 

Казалось бы, первый вариант показывает нормальное распределение. Однако это впечатление обманчиво: на самом деле гистограмма здесь смещена вправо.
2) Интервалы нельзя пропускать! Так теряется возможность наглядно увидеть выбросы значений:

 

 

Разница со столбиковой диаграммой

Гистограмма и столбиковая диаграмма – это ведь одно и то же? Нет, они принципиально отличаются, хотя и выглядят похоже.
Между столбиками в гистограмме обычно не оставляют пустого пространства, подчеркивая непрерывность интервалов. По оси X в гистограмме расположена количественная шкала (в виде последовательных интервалов), а в столбиковой диаграмме – категориальная. Причем этих интервалов обычно нет в изначальном датасете, они выбираются произвольно. Столбики в столбиковой диаграмме можно сортировать, например, от большего к меньшему, или по алфавиту. В гистограмме сортировать данные не получится, так как интервалы идут по порядку, от меньших значений к большим.
Кстати, гистограммы появились в стандартных диаграммах Excel в 2016 году.

Как выбирать интервалы?

Слишком маленькие интервалы показывают данные чрезмерно детализированно, затрудняя восприятие паттерна. Слишком большие интервалы чересчур обобщают, из-за чего теряются важные особенности характера распределения. Нет единого рецепта, нужно найти здоровый баланс между двумя крайностями.

 

 

В приведенном примере интервал 0,5 кажется наиболее сбалансированным.

Альтернативы гистограммам

Гистограммы особенно уместны в презентациях в силу своей исключительной понятности и наглядности. Но если вам нужно показать распределение по нескольким рядам данных, для достижения компактности можно использовать и другие графики.
Высокой плотностью данных отличаются баркод-плот и стрип-плот:

 

 

Работа автора
Если вы хотите использовать эти графики в презентациях, лучше применять акцентное выделение. Мы обсудим это в седьмой главе.
В научных работах широко используют график «ящик с усами», который является «сплющенной» гистограммой. Дополнительно он указывает на медиану, а также более компактно показывает характер распределения:

 

 

 

Автор Андрей Дорожный, визуальный журналист
В презентации для широкого неподготовленного читателя использование «ящика с усами» вряд ли будет уместно.
Назад: Изменение во времени
Дальше: Корреляция/взаимосвязь