Книга: Данные: визуализируй, расскажи, используй
Назад: глава 1. важность контекста
Дальше: глава 3. информационный мусор — ваш враг!

глава 2

выбор эффективного варианта визуализации данных

Из множества разных диаграмм, графиков и других средств визуализации данных всего десять покроют большинство ваших потребностей. Когда я оглядываюсь на более чем 150 визуализаций данных, которые я выполняла для семинаров и консалтинговых проектов в прошлом, я вижу примерно столько средств, которые я использую чаще всего (рис. 2.1). На них мы и сосредоточимся.

c02f001a
c02f001b

Рис. 2.1 Визуальные средства, которые я использую чаще всего

Простой текст

Когда у вас всего одно или два значения, которые нужно представить, эффективнее всего использовать текст. Выделите свою цифру и сопроводите несколькими пояснениями. Пара значений, оформленные в виде таблицы или графика, могут сбить аудиторию с толку, к тому же и сами числа потеряют значимость. Лучше использовать их самостоятельно.

В качестве иллюстрации рассмотрим такой пример. В апреле 2014 г. исследовательский центр Pew Research Center опубликовал данные о числе матерей-домохозяек в виде графика, как на рис. 2.2.

c02f002

Рис. 2.2 Число детей матерей-домохозяек (оригинальный график)

Если у вас есть несколько чисел, это не значит, что нужно строить график! На рисунке 2.2 много места посвящено всего двум числам. Этот график не особо помогает их интерпретировать, а пояснения вне его и вовсе могут исказить восприятие высоты столбцов: например, с первого взгляда не очевидно, что 20 — меньше половины от 41.

В данном случае было бы достаточно текста: в 2012 г. 20% детей воспитывались матерями-домохозяйками, в 1970 г. — 41%.

В презентации или отчете это можно оформить так, как на рис. 2.3.

c02f003

Рис. 2.3 Число детей матерей-домохозяек (текст)

Уточню: можно представить те же данные под другим углом. Например, отразить динамику в процентах: «Число детей с матерями-домохозяйками снизилось более чем на 50% с 1970 по 2012 г.». Я рекомендую делать это осторожно: когда вы решаете использовать одно число вместо двух, подумайте, какую часть контекста вы теряете. В данном случае мне кажется, что точные значения (20 и 41%) помогают понять характер изменений.

Если у вас всего пара чисел, которые нужно представить, используйте только их. Если данных больше, обычно достаточно таблицы или диаграммы. Важно понимать, что люди по-разному взаимодействуют с этими средствами визуализации. Обсудим подробнее каждое из них, проанализируем варианты и разберем примеры.

Таблица

Изучая таблицу, человек задействует вербальную систему: он читает. Когда передо мной появляется таблица, у меня возникает неосознанное желание анализировать данные, водя по ним указательным пальцем: я читаю по горизонтали (по строкам) и по вертикали (по столбцам) или сравниваю значения. Таблицы хороши именно этим: с их помощью можно обращаться к различным целевым аудиториям, которые интересуются разными темами. Если нужно представить много разных показателей, обычно проще это сделать с помощью таблицы, а не диаграммы.

Таблицы в устных презентациях

Использование таблицы в устной презентации — не лучшая идея. Вы полностью теряете внимание слушателей, пока они изучают ее. Если вы подумываете вставить таблицу в презентацию или отчет, задайте себе вопрос: чего вы хотите добиться? Скорее всего, есть и более удачные инструменты, чтобы донести до аудитории вашу мысль. Если вы понимаете, что без таблицы не обойтись, подумайте, можно ли перенести ее целиком в приложение и дать аудитории ссылку на нее.

При составлении таблицы помните, что главное — данные, дизайн второстепенен. Утолщенные границы или градация не должны отвлекать от содержания. Используйте тонкие границы или пустое пространство для разделения элементов.

Изучите таблицы на рис. 2.4. Обратите внимание, что во второй (тонкие границы) и третьей (минимальные границы) данные выделяются сильнее структурных элементов.

c02f004

Рис. 2.4 Границы в таблицах

Границы должны повышать читаемость таблицы. Подумайте, как добиться того, чтобы они не перетягивали внимание на себя: сделайте их серыми или избавьтесь от них. Выделяться должны данные, а не границы.

Рекомендованная литература

Если вы хотите больше узнать о дизайне таблиц, рекомендую вам книгу Show Me the Numbers («Покажи мне цифры») Стивена Фью. Отдельная глава в ней посвящена дизайну таблиц, обсуждению структурных элементов и самым эффективным приемам оформления.

Перейдем к особому виду таблиц — тепловым картам.

Тепловая карта

Один из способов применения графических средств представления данных в таблице — тепловая карта (heatmap). В этом случае индивидуальные значения отображаются при помощи цвета.

Рассмотрим рисунок 2.5, где приводятся обычная таблица и тепловая карта в сравнении.

c02f005

Рис. 2.5 Две визуализации одних и тех же данных

В обычной таблице вы читаете данные. Я поймала себя на том, что сама просматриваю строки и столбцы, чтобы понять, какие значения выше, а какие ниже, и мысленно пытаюсь выстроить их в порядке возрастания.

Для упрощения можно воспользоваться выделением цветом, что поможет глазам и мозгу быстрее найти нужную информацию. Во втором варианте таблицы — тепловой карте — чем интенсивнее синий цвет, которым выделена ячейка, тем выше значение в ней. Благодаря этому мы тратим на выделение крайних значений — самого низкого (11%) и самого высокого (58%) — гораздо меньше времени, чем в обычной таблице, где нет визуальных подсказок.

В графических приложениях (например, Excel) есть встроенная функция условного форматирования, позволяющая без особых сложностей создавать такие тепловые карты, как на рис. 2.5. Всегда сопровождайте таблицу легендой, чтобы помочь аудитории интерпретировать данные. В приведенном примере это подзаголовок «Меньше — Больше», в котором использованы цвета условного форматирования.

А теперь обсудим одно из самых популярных средств визуализации данных — диаграммы.

Диаграммы (графики, гистограммы и пр.)

При изучении таблиц, как уже было сказано, человек задействует вербальную систему, а при работе с диаграммами — визуальную, которая обрабатывает информацию гораздо быстрее. А значит, при прочих равных условиях качественная диаграмма быстрее донесет информацию, чем качественная таблица. В начале этой главы я упоминала о том, что существует множество типов диаграмм. Однако десятка разновидностей вполне достаточно для удовлетворения большинства повседневных нужд.

Типы диаграмм, которые я использую чаще всего, можно условно разделить на четыре категории: точечные, линейные графики, гистограммы и линейчатые диаграммы и диаграммы с областями. Мы подробно остановимся на каждой из них и рассмотрим случаи их применения и примеры.

Chart или graph?

В английском языке для обозначения диаграмм используются термины сhart и graph. Как правило, сhart — более широкая категория, включающая линейные графики, диаграммы и карты. Я не провожу такого различия, поскольку пользуюсь в основном простыми диаграммами.

Точечная диаграмма

Диаграмма рассеяния

Диаграмма рассеяния используется для показа взаимосвязи между величинами, поскольку позволяет располагать значения одновременно по осям Х и Y, чтобы увидеть, есть ли между ними взаимосвязь и какая. Чаще этот тип диаграмм применяют в науке (возможно, поэтому неподготовленному человеку они кажутся сложными). Но иногда диаграммы рассеяния эффективно используют и для решения бизнес-задач.

Предположим, вы управляете автобусным парком и хотите понять соотношение пробега и стоимость за милю (1,6 км). Диаграмма рассеяния может выглядеть примерно как на рис. 2.6.

c02f006

Рис. 2.6 Диаграмма рассеяния

Если для вас важны только случаи, когда стоимость за милю превышала среднюю, диаграмму рассеяния можно слегка изменить, чтобы нужная информация сразу бросалась в глаза, как на рис. 2.7.

c02f007

Рис. 2.7 Измененная диаграмма рассеяния

На основе рис. 2.7 можно сделать вывод, что стоимость за милю была выше средней при пробеге меньше 1700 миль и больше 3300 миль. В следующих главах мы подробнее обсудим примененные здесь дизайнерские решения и поймем, чем они обусловлены.

Диаграммы-линии

Диаграммы-линии (графики) используются для отображения количественных показателей за определенный период, например несколько дней, месяцев, кварталов, лет. Точки соединены линией, показывающей взаимосвязь между ними. Этот вариант не подходит для отображения данных из разных категорий.

Чаще всего я использую два типа графиков: линейный и слоупграф.

Линейный график

Линейные графики могут быть с одним рядом данных (одной кривой), двумя и несколькими, как показано на рис. 2.8.

c02f008

Рис. 2.8 Линейные графики

Обратите внимание: при обозначении времени на горизонтальной оси Х интервалы должны быть одного порядка. Недавно я видела график, где сначала, с 1900 г., значения по оси Х изменялись с шагом в десять лет (1910, 1920, 1930 и т. д.), а затем, с 2010 г. — с шагом в год (2011, 2012, 2013, 2014). При этом расстояние между точками, обозначающими десятилетия, и между точками, обозначающими годы, было одинаковым. Это сбивает зрителей с толку.

Как показать среднее в диапазоне

Иногда кривая линейного графика может представлять статистическую сводку, например среднее значение, или точечную оценку прогноза. Если вы хотите дать представление о диапазоне (или уровне значимости, в зависимости от ситуации), это можно сделать непосредственно на графике. Например, на рис. 2.9 показаны минимальное, среднее и максимальное значения времени прохождения паспортного контроля в аэропорту за период 13 месяцев.

c02f009

Рис. 2.9 Среднее в диапазоне на линейном графике

Слоупграф

Слоупграф (slopegraph) также называют диаграммой наклона. Его можно использовать для сравнения значений, например, в двух периодах, поскольку он наглядно отражает увеличение или снижение показателей по разным категориям между двумя точками данных.

Легче всего объяснить преимущества слоупграфа на примере. Предположим, вам надо проанализировать и представить результаты недавнего опроса сотрудников об уровне их удовлетворенности своей работой. Чтобы показать относительные изменения по категориям, упоминавшимся в опросе, за период с 2014 по 2015 г., можно создать слоупграф, как на рис. 2.10. Он содержит много информации. Помимо абсолютных значений (точек), линии, соединяющие их, дают наглядное представление о динамике изменений — увеличении или снижении, — без необходимости дополнительных пояснений.

c02f010

Рис. 2.10 Слоупграф

Шаблон слоупграфа

Создание слоупграфа требует терпения, поэтому он редко входит в число стандартных графиков в специализированных приложениях. Шаблон в Excel и инструкции по индивидуальной настройке параметров можно скачать на .

Полезность слоупграфа в конкретной ситуации зависит от самих данных. Когда много линий частично накладываются друг на друга, эффективность графика невелика, хотя иногда удается успешно выделить один ряд данных, подчеркнув его динамику во времени. Так, в нашем примере можно сфокусировать внимание на одной категории, значения в которой со временем снижались.

При изучении рис. 2.11 внимание сразу привлекает снижение в категории «Карьерный рост», а остальные данные сохранены ради контекста, но не конкурируют за внимание. Мы поговорим о стратегии, на которой строится этот прием, при обсуждении привлекающих атрибутов в главе 4.

c02f011

Рис. 2.11 Измененный слоупграф

Линейные графики эффективно отображают данные за определенный период. Если же необходимо графически представить данные, организованные в группы или категории, чаще прибегают к диаграммам.

Столбчатые диаграммы

Часто к недостаткам столбчатых и линейчатых диаграмм относят их простоту. Это ошибка. Скорее наоборот: преимущество такой диаграммы в том, что она простая, а значит, аудитория направит интеллектуальные усилия на анализ представленных данных, а не на попытки разобраться в элементах.

Диаграммы хорошо воспринимаются визуально. Нам легко сравнить столбцы: какая категория самая большая, какая — самая маленькая, какова разница между ними. Обратите внимание: в силу особенностей нашего восприятия (того, как человеческий глаз сравнивает относительную высоту столбцов) в диаграмме обязательно должна быть нулевая (базовая) линия — где ось Х пересекается с осью Y. Иначе визуальное сравнение будет искаженным и ошибочным.

Рассмотрим в качестве примера рис. 2.12 — столбчатую диаграмму, которая была представлена на телеканале Fox News.

c02f012

Рис. 2.12 Диаграмма Fox News

Представим, что сейчас осень 2012 г. Нас интересует, что произойдет, когда срок действия сокращения налогов, проведенного при Джордже Буше, закончится. Столбец слева отражает текущий верхний уровень ставки — 35%, а столбец справа показывает, каким он будет с 1 января будущего года: 39,6%.

Что вы чувствуете, глядя на эту диаграмму? Тревогу из-за значительного роста? Разберемся подробнее.

Обратите внимание, что значения по оси Y начинаются не с нуля, а с 34. Это означает, что теоретически столбцы диаграммы должны продолжаться вниз за границы экрана. В том виде, как показано на диаграмме, визуальное увеличение составляет 460% (высота каждого из столбцов 35 – 34 = 1 и 39,6 – 34 = 5,6; таким образом (5,6 – 1) / 1 = 460%). Если бы диаграмма начиналась с нулевой линии и высота столбцов была отображена правильно (35 и 39,6), визуальное увеличение составило бы 13% ((39,6 – 35) / 35). Сравним две диаграммы на рис. 2.13.

c02f013

Рис. 2.13 В диаграмме должна быть нулевая линия

Из рисунка 2.13 очевидно, что разница между столбцами на левой диаграмме кажется значительной, а на правой — небольшой. Возможно, тема роста налоговой нагрузки не так страшна, как ее пытаются представить. В силу особенностей нашего восприятия для точного сравнения нужен контекст.

Возможно, вы заметили, что в дизайн второй диаграммы внесены еще несколько изменений. Ось Y, которая в оригинальной диаграмме находилась справа, перенесена влево, чтобы мы понимали, как интерпретировать данные, до того, как увидим их. Значения, которые в оригинальной диаграмме располагались над столбцами, помещены внутрь последних, чтобы снизить уровень информационного шума. Если бы я использовала эту диаграмму для своих целей, а не как пример, возможно, я бы убрала ось Y и оставила только значения данных внутри столбцов, чтобы исключить избыточную информацию. Однако здесь я решила сохранить эту ось, чтобы было ясно, что она начинается с нулевого значения.

Оси диаграмм или значения данных

Стандартное решение, которое приходится принимать при построении любой диаграммы, — сохранить ли оси и шкалы или указать значения данных рядом с соответствующими элементами. Для этого оцените уровень детализации, который важен для аудитории. Если вы хотите представить общие тенденции, возможно, стоит сохранить оси, но сделать их серыми, чтобы они не отвлекали внимание. Если важно сфокусировать внимание на конкретных числах, стоит указать значения. Тогда лучше убирать оси диаграммы, чтобы избавиться от лишней информации. Всегда учитывайте, как аудитория, по вашей задумке, должна использовать визуализацию данных, и структурируйте визуализацию соответственно.

Правило, которое мы только что проиллюстрировали: «В диаграмме всегда должна быть нулевая линия». К линейным графикам оно не применяется. Там важно относительное расположение кривой в пространстве, а не расстояние от нее до нулевой линии или оси, так что последнюю можно опустить. Однако пользуйтесь этой возможностью благоразумно: аудитории должно быть понятно, что у графика нет нулевой линии, а вы должны учитывать контекст, чтобы незначительные изменения не выглядели обманчиво серьезными.

Визуализация данных и вопрос этики

Но что, если изменение масштаба или любая другая манипуляция с графическим представлением данных усиливает ту точку зрения, которую вы выражаете? Вводить аудиторию в заблуждение с помощью некорректной визуализации неэтично. Кроме того, это довольно рискованно. Стоит лишь одному внимательному участнику из аудитории заметить манипуляцию (например, что ось Y начинается не с нуля, а с другого значения), вас не захотят слушать, а ваша репутация будет погублена.

Поговорим и о ширине столбцов. Здесь нет четкого правила, но обычно она больше пустого пространства между ними. Не стоит делать их настолько широкими, чтобы у аудитории возникла мысль сравнить их по площади, а не по высоте. Ниже приведены примеры (почти как в сказке про Машу и трех медведей), когда столбцы слишком узкие, слишком широкие и в самый раз.

c02f014

Рис. 2.14 Ширина столбцов

Перейдем к рассмотрению разных типов диаграмм. Они дают вам гибкость в решении разных проблем визуализации данных. Разберем наиболее распространенные типы диаграмм, которые наверняка вам знакомы.

Гистограмма (столбчатая диаграмма)

Один из самых распространенных типов диаграмм — гистограмма, или столбчатая диаграмма (vertical bar chart). Как и график, она может быть с одним, двумя или несколькими рядами данных. При добавлении дополнительных рядов сфокусироваться на них сложнее, так что используйте такие диаграммы осторожно. Также учтите, что в них происходит визуальная группировка данных, в результате становится важным относительный порядок категорий. Подумайте, что именно должна сравнивать аудитория, и структурируйте иерархию категорий, чтобы провести сравнение было максимально легко.

c02f015

Рис. 2.15 Гистограммы

Гистограмма с накоплением

Гистограммы с накоплением (vertical stacked bar chart) используются нечасто. Они позволяют сравнить общие значения по категориям, а также проанализировать составляющие в отдельной категории. К сожалению, такая гистограмма часто становится сложной для восприятия, особенно учитывая разнообразие цветовых схем, которые по умолчанию есть в большинстве графических приложений (подробнее об этом поговорим далее). Относительно легко справиться с задачей сравнения отдельных компонентов по разным категориям, когда они расположены вдоль оси Х. Но чем выше по столбцам вы поднимаетесь, тем сложнее становится задача. Наглядно это проиллюстрировано на рис. 2.16.

c02f016

Рис. 2.16 Сравнение компонентов по категориям с помощью гистограммы с накоплением

Структурировать гистограмму с накоплением можно на основе абсолютных значений (как на рис. 2.16) или процентного соотношения — тогда все значения в каждом столбце в сумме должны составлять 100% (указывается процентное соотношение каждого вертикального сегмента, пример такой гистограммы мы разберем в главе 9). Выбор за вами, и он зависит от того, что вы хотите донести до аудитории. При использовании гистограммы с накоплением на основе процентного соотношения подумайте, стоит ли указать абсолютные суммарные значения для каждой категории (либо включив их в диаграмму, либо в примечании или ссылке). Это поможет аудитории интерпретировать данные.

Каскадная диаграмма

Каскадная диаграмма (waterfall chart) используется, чтобы выделить отдельные элементы гистограммы с накоплением и сфокусироваться на каждом из них или чтобы показать начальную точку, динамику (рост/спад) и итоги.

Лучше всего проиллюстрировать применение такой диаграммы на конкретном примере. Представьте, что вы — бизнес-партнер по управлению персоналом и вам нужно понять и визуализировать данные о том, как за последний год изменилась численность сотрудников в отделе по работе с клиентами. Каскадная диаграмма, отображающая эти данные, может выглядеть как на рис. 2.17.

c02f017

Рис. 2.17 Каскадная диаграмма

Слева мы видим численность сотрудников отдела на начало года. Далее мы отмечаем ее рост за счет найма и перехода из других отделов организации. Затем происходит снижение численности из-за того, что люди переходят в другие отделы или увольняются. В последнем столбце отображена численность сотрудников отдела на конец года.

Создание каскадной диаграммы

Если в вашем графическом приложении нет встроенной функции для создания каскадной диаграммы, не расстраивайтесь. Просто сформируйте гистограмму с накоплением и сделайте первые ячейки (которые ближе всех к оси Х) невидимыми. Придется потрудиться, но результат того стоит. Публикация в блоге на эту тему и версия (в Excel) диаграммы из предыдущего примера вместе с рекомендациями, как создать ее для ваших целей, есть на .

Линейчатая диаграмма

Если бы мне пришлось выбирать единственную диаграмму для визуального представления данных по категориям, я без колебаний остановилась бы на линейчатой (horizontal bar chart), или горизонтальном варианте гистограммы. Почему? Потому что она очень легко читается. Она идеально подойдет вам, если у вас длинные названия категорий. Мы обычно читаем слева направо, и аудитории будет легко изучить вашу диаграмму. Кроме того, обычно человек обрабатывает информацию начиная с левого верхнего угла и скользит глазами по странице или слайду по траектории буквы Z. Структура линейчатой диаграммы такова, что глаз человека видит названия категорий еще до самих данных. К тому моменту, когда он знакомится с данными, он уже знает, что они означают (вместо того чтобы перескакивать взглядом с них на название категории, как в случае с гистограммой).

Как и гистограмма, линейчатая диаграмма может быть с одним, двумя и несколькими рядами данных (рис. 2.18).

c02f018

Рис. 2.18 Линейчатые диаграммы

Логический порядок категорий

При создании любой диаграммы, отображающей категории данных, уделите отдельное внимание вопросу логической последовательности категорий. Если у них есть естественный порядок, придерживайтесь его. Например, если ваши категории — возрастные группы (0 – 10 лет, 11 – 20 лет и т. д.), расположите их в порядке возрастания. Если естественного порядка нет, подумайте, как структурировать диаграмму наиболее логичным для аудитории способом. Так вы облегчите процесс интерпретации данных.

Ваша аудитория (в отсутствие других визуальных подсказок) обычно начинает рассматривать диаграмму с левого верхнего угла и движется по контуру буквы Z. Это означает, что в первую очередь пользователи увидят верхнюю часть диаграммы. Если важнее всего самая крупная категория, расположите ее в самом верху, а под ней в порядке убывания все остальные. Если важнее самая маленькая категория, ее тоже можно разместить в самом верху, а под ней в порядке возрастания значений остальные.

Конкретный пример логического упорядочивания данных рассматривается в .

Линейчатая диаграмма с накоплением

Аналогично гистограмме с накоплением линейчатую диаграмму с накоплением (horizontal stacked bar chart) можно использовать для отображения совокупных значений для разных категорий, а также отображения отдельных компонентов в данных категориях. Структурировать ее можно на основе абсолютных значений или процентного соотношения. По моему опыту, последний подход эффективен при визуализации частей целого от отрицательного к положительному: поскольку есть четкая базовая линия как по левому краю, так и по правому, легко проводить сравнение категорий на разных полюсах диапазона. Например, этот тип диаграммы можно применять для визуализации результатов опросов, собранных методом суммарных оценок, — по шкале Лайкерта (ее традиционно используют в опросах, где ответы ранжируются от «Категорически не согласен» до «Полностью согласен»), как показано на рис. 2.19.

c02f019

Рис. 2.19 Линейчатая диаграмма с накоплением

Диаграмма с областями

Я крайне редко использую диаграммы с областями (area graphs). Человеческий глаз плохо справляется с задачей соотнесения количественных значений с двумерным пространством, и прочесть большинство таких визуализаций сложнее, чем другие типы диаграмм, которые мы обсуждали ранее. Исключение я делаю в одном случае: когда необходимо отразить показатели с большой разницей в значениях. Пространственное измерение области, которая для этого используется (у нее есть ширина и высота, а у столбца — либо высота, либо ширина), обеспечивает более наглядную визуализацию по сравнению с плоскими диаграммами, как показано на рис. 2.20.

c02f020

Рис. 2.20 Квадратная диаграмма

Другие типы диаграмм

До сих пор я рассказывала о тех типах диаграмм, которые сама применяю чаще всего. Конечно, это не исчерпывающий список, но он может удовлетворить большинство ваших ежедневных потребностей. Прежде чем переходить к новым типам визуализации данных, нужно овладеть базовыми методами.

Есть еще много типов диаграмм. При выборе в первую очередь необходимо убедиться, что диаграмма четко донесет ваше сообщение до аудитории. При использовании плохо знакомого инструмента визуализации вам могут потребоваться дополнительные усилия, чтобы сделать график доступным.

Инфографика

Под инфографикой понимается графическая визуализация информации или данных. Термин часто используется неправильно: им могут обозначать что угодно, от забавных картинок до важной информации. Примеры плохой инфографики включают «кричащие» цифры чересчур крупного размера и «мультяшные» диаграммы. Их яркий внешний вид может привлечь внимание, но требовательный пользователь будет недоволен их низкой информативностью. Такую визуализацию считать инфографикой неправомерно. Но есть много примеров качественной инфографики в области журналистики данных, например в таких изданиях, как New York Times и National Geographic.

Прежде чем приступать к созданию инфографики, необходимо ответить на те же вопросы, которые нужны для понимания контекста сторителлинга на основе данных. Кто ваша аудитория? Что, по вашей задумке, слушатели должны узнать или сделать? Только после этого можно выбрать метод визуализации, который лучше всего донесет информацию до аудитории. Хорошая визуализация — будь то инфографика или любой другой вариант — не просто набор фактов на заданную тему, а хорошо рассказанная история.

Чего лучше избегать

Мы обсудили средства визуализации данных, которые я чаще всего применяю в бизнесе. Есть типы диаграмм и элементы, которых я настоятельно рекомендую избегать: круговые и кольцевые диаграммы, 3D-диаграммы и вспомогательные оси Y. Рассмотрим их подробнее.

Круговые диаграммы — зло

Я не без оснований негативно отношусь к круговым диаграммам. Если коротко, это зло. Чтобы понять, как я пришла к этому выводу, достаточно проанализировать следующий пример.

c02f021

Рис. 2.21 Круговая диаграмма

Круговая диаграмма на рис. 2.21 (основана на реальном примере) показывает объем доли рынка каждого из четырех поставщиков: A, B, C и D. Изучите данную визуализацию. Как вы думаете, у кого из поставщиков самая большая доля рынка?

Большинство из тех, кому я задавала этот вопрос, сошлись во мнении, что у поставщика В (нижний правый сектор). А какова его доля в процентном соотношении от общего объема рынка?

35%?

40%?

Возможно, вы уже заподозрили подвох. Посмотрите, что получится, если добавить в круговую диаграмму значения сегментов, как показано на рис. 2.22.

c02f022

Рис. 2.22 Круговая диаграмма с указанием значения сегментов

Объем доли рынка поставщика В (этот сегмент кажется самым большим) составляет 31%, меньше, чем у поставщика А (хотя визуально сегмент поставщика A выглядит меньше).

Проанализируем, что именно препятствует правильной интерпретации данных. Первое, что бросается в глаза (и должно вызвать подозрение у проницательного пользователя), — формат 3D и странная перспектива: кажется, что верхние сегменты расположены дальше. Следовательно, они кажутся меньше. Нижние сегменты расположены ближе, поэтому кажутся больше. О формате 3D мы еще поговорим подробнее, но пока запомните правило: никогда не используйте 3D! Как вы уже увидели, от этого формата нет никакой пользы — только искажение визуального восприятия данных.

Даже если убрать эффект 3D и сделать диаграмму плоской, сложности в ее интерпретации останутся. Глаз человека не слишком эффективно соотносит количественные значения с двумерным пространством. Иными словами, круговые диаграммы сложны для чтения. Когда сегменты примерно одного размера, тяжело (если вообще возможно) определить, какой из них больше, а какой меньше. Когда сегменты разного размера, вы в лучшем случае сможете определить, какой из них больше, а какой меньше, но вряд ли получится сказать, насколько. Для решения этой проблемы можно добавить значения по сегментам. Но даже в этом случае, по моему мнению, такой вид визуализации не заслуживает той популярности, которой сейчас пользуется.

Какова альтернатива? Один из вариантов — заменить круговую диаграмму линейчатой, как показано на рис. 2.23, организовав данные в порядке возрастания или убывания (если у этих категорий нет своего логического порядка, как уже сказано ранее). Помните, что в гистограммах и линейчатых диаграммах человеческий глаз сравнивает крайние точки, а поскольку они выровнены по общей базовой линии, оценить их относительный размер несложно. Для пользователя очевидно не только то, какой сегмент самый большой, например, но и насколько он крупнее, чем остальные.

c02f023

Рис. 2.23 Альтернатива круговой диаграмме

Может возникнуть вопрос: что теряется при переходе от круговой диаграммы к гистограмме? Уникальность первой — в концепции целого и его частей. Но есть ли толк от этой концепции, если диаграмму сложно прочесть? На рисунке 2.23 я попыталась сохранить эту концепцию, указав, что сумма частей равна 100%. Это не идеальное решение, но его стоит рассмотреть. О том, какие еще существуют альтернативы круговой диаграмме, я расскажу в .

Когда вы используете круговую диаграмму, остановитесь и спросите себя: зачем? Если вы сможете ответить, значит, вы действительно понимаете, что делаете. В любом случае круговая диаграмма не должна первой приходить вам на ум — с учетом сложностей ее визуального восприятия, которые мы обсудили выше.

Разберем похожий тип диаграммы, который я также рекомендую избегать, — кольцевую.

На круговой диаграмме мы предлагаем аудитории сравнивать углы и площади сегментов. На кольцевой — длины дуг (например, на диаграмме на рис. 2.24 — дуг А и В). Насколько точен ваш глазомер, чтобы оценить длину каждой из дуг и сравнить их? Не особенно? Что и требовалось доказать. Не используйте кольцевые диаграммы.

c02f024

Рис. 2.24 Кольцевая диаграмма

Не используйте 3D-диаграммы

Одно из золотых правил визуализации данных гласит: никогда не используйте формат 3D. Повторю: никогда не используйте формат 3D. Единственное исключение — если третье измерение применяется целенаправленно (но даже в этом случае ситуация с представлением данных может быстро выйти из-под контроля, так что будьте предельно внимательны). Как мы видели на круговой диаграмме в предыдущем примере, формат 3D искажает восприятие числовых значений, делая невозможными их сравнение или интерпретацию.

В формате 3D на диаграмме появляются избыточные элементы, например боковая и нижняя плоскости. Но эти отвлекающие внимание элементы — не самое страшное. Графические приложения дают довольно странные эффекты при построении объемных диаграмм. Например, вы можете считать, что графическое приложение осуществляет построение по передней или задней части столбца. К сожалению, не всё так просто. Например, в Excel высота столбца определяется в точке пересечения невидимой касательной плоскости с осью Y. В итоге получаются такие диаграммы, как на рис. 2.25.

c02f025

Рис. 2.25 Гистограмма в 3D-формате

Сколько жалоб было получено в январе и феврале, судя по этой гистограмме? Изначально я использовала значение «один» и для первого, и для второго месяца. Однако, если посмотреть на гистограмму, сравнить высоту столбца с линией уровня и мысленно продолжить ее до пересечения с осью Y, визуально я бы сказала, что числовое значение должно быть примерно 0,8. Это просто неудачная визуализация данных. Не используйте формат 3D.

Вспомогательная ось Y редко бывает хорошей идеей

Иногда необходимо разместить данные из разных категорий вдоль общей оси Х. Часто этот шаг ведет к появлению вспомогательной оси Y — еще одной вертикальной оси справа от диаграммы. Рассмотрим пример на рис. 2.26.

c02f026

Рис. 2.26 Вспомогательная ось Y

При интерпретации этой диаграммы нужно некоторое время, чтобы прочесть ее и понять, по какой оси какую категорию данных интерпретировать. Именно поэтому вспомогательной оси Y лучше избегать. Вместо этого проанализируйте два предложенных ниже варианта; возможно, какой-то из них окажется лучшим.

  1. Укажите числовые значения на самой гистограмме.
  2. Разделите две гистограммы по вертикали: сделайте отдельную ось Y для каждой (слева), но при этом оставьте общую ось Х.

Оба варианта показаны на рис. 2.27.

c02f027

Рис. 2.27 Как избежать вспомогательной оси Y

Третий возможный вариант, не показанный здесь, — использовать цвет для объединения осей и данных, которые следует интерпретировать по ним. Например, в гистограмме на  название оси Y, расположенной слева, — «Выручка», — можно было бы выделить синим и оформить синим столбцы, отражающие показатель выручки. А название оси Y, расположенной справа, — «Число специалистов по продажам», — оранжевым и оформить кривую на диаграмме тем же цветом. Я не рекомендую этот подход, обычно цвет можно использовать более стратегически. Подробнее об этом мы поговорим в главе 4.

Помимо прочего, следует обратить внимание на то, что, когда вы размещаете две категории данных вдоль общей оси, это подразумевает наличие между ними взаимосвязи (а на деле ее может и не быть). Именно это стоит учитывать в первую очередь при выборе способа визуализации данных.

Если вы столкнулись с проблемой вспомогательной оси Y и выбираете между альтернативными вариантами, предложенными на , подумайте, какой уровень детализации вам необходим. В первом варианте фокус сделан на конкретные значения. Во втором внимание направлено на общие тенденции. Вывод таков: избегайте вспомогательной оси Y и используйте один из предложенных альтернативных вариантов.

Выводы

В этой главе мы проанализировали средства визуализации, которые я сама использую чаще всего. Возможно, для каких-то случаев подойдут другие типы диаграмм, но того, что мы с вами обсудили, должно хватить для решения большинства повседневных задач.

В большинстве случаев нет единственно верного способа: одну задачу можно решить с помощью разных типов диаграмм. Главное — четко сформулировать: что должны узнать слушатели? Затем выберите способ визуализации данных, который поможет справиться с этим лучше всего.

На вопрос: «Какая диаграмма мне нужна в данной ситуации?» — ответ может быть только один: та, которую ваша аудитория сможет прочесть легче всего. Самый простой способ это проверить — создать диаграмму и показать ее другу или коллеге. Попросите его поделиться своими впечатлениями: на чём он сосредоточился, что увидел, какие есть комментарии или вопросы. Это поможет вам оценить, насколько диаграмма отвечает вашей цели, или понять, что надо изменить.

Вы усвоили второй урок сторителлинга на основе данных: выберите эффективный способ визуализации.

Назад: глава 1. важность контекста
Дальше: глава 3. информационный мусор — ваш враг!