Знать основы статистики
Чтобы уверенно чувствовать себя с данными, желательно ознакомиться хотя бы с азами статистики. Если вы уже изучали статистику – самое время вспомнить о ней. Это нужно, чтобы избежать бессмысленных и некорректных вычислений и визуализаций на их основе.
Необходимо получить принципиальное понимание, какие расчеты приводят к вызывающим доверие результатам, а какие – нет. Уходить при этом в дебри и подробно разбираться в формулах и сложных видах статистического анализа совершенно необязательно.
Вот, например, карта России. Угадайте, какой показатель здесь закодирован оттенками цвета?
Это население субъектов РФ. Естественно, темнее всего Москва, Московская область, Санкт-Петербург, Краснодарский край. Если любые статистические данные по регионам России не пересчитывать на количество населения, вы всегда будете получать подобную карту.
Например, мы изучаем смертность в ДТП. Здесь важно понять не сколько всего было жертв ДТП в каждом регионе, а сколько их было на каждую тысячу проживающих.
Вот карта общего числа преступлений по регионам за 2018 год в абсолютных числах. Она почти идентична карте, показывающей население:
А вот количество преступлений на 10 000 человек:
Картина меняется радикально. Данные по регионам почти всегда нужно нормировать, то есть приводить к количеству населения или к площади.
Нельзя вольно обращаться и с процентными значениями. Обычно их нельзя просто так складывать или высчитывать из них среднее.
Допустим, нам известно, что 18 % взрослых и 21 % детей в России страдает аллергией. Из этого совершенно не следует, что аллергией страдает 39 % населения, как это показывает картинка выше. Также из этого не следует, что процент аллергиков среди населения всех возрастов равен 19,5 ((18+21)/2). Чтобы узнать процент аллергиков всего среди населения, нам нужны дополнительные данные. Необходимо знать процент взрослых и детей в России. Допустим, детей 10 %, а взрослых – 90 %. Теперь проводим следующие вычисления: (90 × 0,18 + 10 × 0,21)/100 = (16,2 + 2,1)/100 = 18,3 %.