Книга: Графики, которые убеждают всех
Назад: Глава 3 Формулируем сообщение
Дальше: Погружение в тему и контекст

Качество данных

С данными всегда что-то не так. Они всегда неполные, есть вопросы к методологии, не такие свежие, как хотелось бы, не совсем в том формате, в каком нужно, не совсем с теми переменными, с какими хотелось бы. Это следует принимать как данность и стараться выжимать максимум из того, что есть.
К данным, к тому, как они собраны, организованы и подготовлены, предъявляются определенные требования. Визуализация данных – это следующий этап после их подготовки и анализа. Если на подготовительном этапе возникли ошибки, то представление таких данных, как бы грамотно оно ни было сделано, не будет стоить многого.

 

Данные должны быть по возможности:
• максимально свежими
• целостными, полными, единообразными
• сравнимыми – собранными по одной методологии на сопоставимых выборках
• из источников, вызывающих доверие

 

Этот график, построенный на базе данных террористических актов Мэрилендского университета, показывает количество терактов, совершенных в мире с 1969 по 2019 год. Я потратил много времени, выясняя, почему в середине девяностых годов значения на графике полностью отсутствуют. Я подозревал в ошибке какие-то настройки программы, в которой создавался график. В конечном итоге пришлось обратиться к документации, сопровождавшей базу данных. Выяснилось, что данные за 1993 год отсутствуют по техническим причинам.

 

 

Очень важно перед началом работы проверить датасет (набор данных) на полноту, целостность и корректность. Если он небольшой, можно просто просмотреть все значения. Если относительно большой – нужно создать оценочные визуализации.
Очень удобно оценивать целостность датасета и распределение значений в столбцах с помощью софта, подобного Trifacta Wrangler (см. скриншот). Над каждым столбцом строится гистограмма, показывающая распределение данных в нем:

 

 

Датасет нужно готовить так, чтобы в каждом столбце находились данные в одном формате и одного типа. Значения должны быть написаны одинаково, с точностью до знака. Если в столбце встречается различное написание или ошибки (например, Массква, Москва, г. Москва) – все должно быть приведено к единообразию. Какие-то столбцы при необходимости нужно разбить, какие-то, напротив, свести в один.

 

 

Скажем, таблицы, представленные на сайте Росстата (gks.ru), непригодны для автоматизированной работы с ними. Они неоднородны. Их строки могут содержать значения разного уровня вложенности: «итого», «в том числе», «из них». Такую таблицу можно только изучать, а проводить по ней анализ и строить графики нельзя. Ту же таблицу про причины смертности можно было бы переделать, например, так:

 

 

Подготовительная работа крайне важна. От нее зависит не только то, насколько удобно вам будет работать в аналитической программе или программе для визуализации данных. Подготовка решает, насколько корректными будут ваши выводы и графики в итоге.
Правила оформления датасета
• Первая строка – заголовки столбцов
• Каждый столбец – отдельная категория
• Данные в столбцах однотипны
• Одно событие или объект – одна строка
• Отсутствие пустых строк и столбцов

 

Иногда предварительная работа (поиск, сбор, подготовка, очистка данных) занимает 80–90 % времени работы над проектом. И это нормально.
Назад: Глава 3 Формулируем сообщение
Дальше: Погружение в тему и контекст