Книга: Как вытащить из данных максимум. Навыки аналитики для неспециалистов
Назад: Дата-грамотность и обработка данных
Дальше: Дата-грамотность и топ-менеджмент

Дата-грамотность и визуализация данных

Мир дата-грамотности огромен и состоит из множества движущихся частей, но есть один элемент, способный облегчить работу буквально всем: визуализация данных. Что это такое? Это упрощенный подход к изучению данных. Представьте себе, что вам нужно проанализировать таблицу данных из 100 000 строк и 50 столбцов. Обрадует вас такая перспектива? Визуализация данных дает возможность упрощать большие объемы данных, поскольку мы с вами способны воспринимать зрительные образы. Поясню на примерах.
Рис. 4.2 представляет собой одну из моих самых любимых визуализаций. Мы можем проследить за походом Наполеона в Россию 1812 года и увидеть, как таяла его армия. И все это – в упрощенном виде. А теперь представьте себе те же данные, но в виде объемной таблицы. Или в виде множества публикаций в различных журналах (и вам нужно выискивать цифры самостоятельно, а затем составлять целостную картину). Много удовольствия вы бы получили, пытаясь таким образом понять, что же произошло с армией? Эта визуализация помогает упростить представление о наполеоновском походе.
Слышали ли вы про вспышку холеры, которая произошла в XIX веке в Лондоне на Брод-стрит (ныне Бродвик-стрит)? Если нет, взгляните на рис. 4.3. Это очень интересное исследование: визуализация данных помогла обществу сдержать эпидемию опасного заболевания. Врач Джон Сноу определил, что источником вспышки холеры стала загрязненная вода из водоразборной колонки, которой пользовалось множество людей. Получив нужную информацию, власти Лондона установили причинно-следственную связь и распорядились закрыть колонку, что предотвратило дальнейшее распространение болезни. Согласитесь, визуализация данных сработала на удивление эффективно!
Эти примеры показывают, как полезно упрощать представление данных. А теперь давайте разберемся, что же такое визуализация. Слишком глубоко закапываться в эту тему мы не будем, лучше полистайте замечательную «Большую книгу об информационных панелях» (The Big Book of Dashboard) С. Векслера, Дж. Шеффера и Э. Котгрейва, – но все же давайте слегка коснемся вопроса.

 

 

 

Искусство визуализации данных уходит корнями в глубокое прошлое. Наши предки при помощи визуальных способов передачи информации рассказывали целые истории. Такие истории мы видим в древнеегипетских иероглифах, в письменности народов Мезоамерики. Как визуализация пробила себе путь в мир данных? Кто-то вспомнит про первые статистические измерения, визуализированные сотни лет назад, про первые графики или диаграммы – про них написаны сотни книг и статей. А мы, пожалуй, перенесемся в современный мир визуализации данных и бизнес-информации.
Еще раз зададимся вопросом из начала этого раздела: кто из вас с радостью взялся бы просеивать информацию из огромной таблицы на 100 000 строк и 50 столбцов в надежде почерпнуть ценные знания? Если бы мне предложил такое мой начальник, я посмотрел бы на него как на ненормального. Вряд ли многие из вас взялись бы за такую работу с энтузиазмом – и это вполне понятно. Даже если вы обнаружите что-то ценное в начале таблицы, где гарантия, что через 24 000 строк ваш инсайт не будет опровергнут, а вы этого даже не поймете, потому что пропустили строку 174 в столбце 26? Слежение за строками и столбцами способно свести с ума кого угодно. Конечно, это гипотетический пример, и я очень надеюсь, что никто из вас в обозримом будущем не столкнется ни с чем подобным.
Однако есть прекрасный способ упрощения подобных таблиц, который поможет вам и вашей организации описать случившееся (дескриптивный анализ) и получить ценные знания (диагностический анализ). Это и есть визуализация данных. Она способна упростить огромный объем данных, собранных и произведенных организациями, и, кроме того, играет очень важную роль в дата-грамотности и ее связи с четырьмя уровнями аналитических методов. Сейчас поясню.
Для начала давайте рассмотрим влияние визуализации на дата-грамотность. Все это вам уже знакомо. Вспомним определение: дата-грамотность – это способность читать данные, работать с ними, анализировать их и общаться на языке данных. Мало кто из нас специально изучал статистику, и, когда руководители организации пытаются демократизировать данные, большинство сотрудников оказываются не в состоянии воспринимать их как есть. Им требуются специальные компьютерные программы, чтобы упростить представление. Здесь-то в игру и вступает ценнейший инструмент работы с данными – визуализация. Такие компании, как Qlik, Tableau Software и ThoughtSpot (и это лишь некоторые), разрабатывают специальное ПО для упрощенного представления данных. Читать данные и работать с ними становится легче, мы можем ставить правильные вопросы и делиться с другими визуализациями – и нередко это способно сдвинуть с мертвой точки даже самую запутанную ситуацию. Сотрудники изучают данные, прорабатывая их на каждом из четырех аналитических уровней, и черпают ценные знания. Как?
Визуализация особенно важна на первом уровне аналитических методов. Как вы помните, первый уровень – это дескриптивная аналитика, описывающая, что произошло в прошлом или происходит в настоящий момент. А как описать происходящее, если у нас собраны миллионы и миллионы единиц данных? Все эти данные мы можем объединить, например, в графики и таким образом получить убедительную визуализацию, которая впоследствии поможет нам разобраться, почему что-либо произошло.
Второй уровень аналитики – это диагностические методы, для которых визуализация также имеет большое значение. Диагностический анализ – это уровень инсайтов, озарений, это уровень, на котором мы выявляем причины случившегося. Визуализация данных в этом случае может стать катализатором, запускающим цепочку нужных вопросов. Откуда здесь такое резко отклоняющееся значение? Почему этот элемент так далеко отстоит от других? Я вижу, что этот столбик на диаграмме значительно выше других: что это за категория и почему он такой? Я вижу, что этот кластер данных находится в определенном временном интервале, но откуда у нас другие данные, вне этого интервала? Мы задумываемся обо всем этом благодаря наглядности: перед нами визуализация данных, которая сама подсказывает нам нужные вопросы (третий элемент дата-грамотности) и помогает находить ответы, что позволяет нашей организации продвигаться вперед. А после этого уже можно строить прогнозы.
Мы переходим к третьему уровню аналитики – предиктивному анализу. Имея перед глазами визуализацию (скажем, график), мы видим тенденции и направления. Если у нас все в порядке с дата-грамотностью, мы можем считывать данные, работать с ними, «крутить» их как угодно, а затем анализировать информацию, задавая вопросы. Все это дает нам важные знания, чтобы впоследствии мы могли надавить на нужные бизнес-рычаги. Таким образом, визуализация данных позволяет нам предсказать, в каком направлении движется наша компания. Это можно проиллюстрировать на примере линейного графика (см. рис. 4.4).

 

 

На нашей визуализации мы видим три линии, обозначающие разные штаты: Аризону, Айдахо и Юту. Каждая из этих линий имеет тенденцию к движению вверх. Это «дескриптивный анализ»: мы узнаем, какой была численность населения в последние десятилетия. Затем у нас могут возникнуть вопросы. Почему в Аризоне такой быстрый рост? Какие факторы могут влиять на темпы роста? Может быть, теплый климат или большое количество рабочих мест? Какими бы ни были причины, у нас есть знания, которые ведут нас к прогностическому анализу.
В нашем примере прогностическая модель может показать, какой будет численность населения к 2020 году – началу нового временного периода и моменту следующей переписи.
На уровне предсказательных методов, где анализ и получение знаний поддерживаются данными и технологиями, визуализация помогает нам наглядно представить сделанные прогнозы. А затем можно заново запустить процессы всех четырех уровней.
Итак, визуализация данных занимает очень важное место в мире дата-грамотности. Дата-грамотностью должны обладать все, а визуализация помогает значительно упростить восприятие того, что иначе могло бы оказаться слишком сложным для неспециалистов. Каждый из нас может поставить себе на службу визуализацию данных – для нашего собственного карьерного роста и для процветания наших компаний.
Назад: Дата-грамотность и обработка данных
Дальше: Дата-грамотность и топ-менеджмент