Книга: Путеводитель по лжи
Назад: Чехарда со средними
Дальше: Возможные уловки при сообщении данных

МАХИНАЦИИ С ОСЯМИ КООРДИНАТ

Человеческий мозг не развит настолько, чтобы обрабатывать большие объемы­ информации в виде текста, зато наши глаза автоматически ищут шаблоны и схемы в данных, представленных визуально. Самый точный, хотя и не самый простой для трактовки способ представить числовую информацию — составить таблицу, включив в нее все имеющиеся данные. Но для большинства людей сложно — если не сказать невозможно — обнаружить в этом массиве информации какие-то закономерности или тенденции, поэтому мы полагаемся на схемы и графики. Последние бывают двух видов: они либо показывают каждую точку данных (как в графике рассеяния), либо каким-то образом преобразуют данные, обобщают их, фокусируясь при этом, например, только на средних или медианах.

Есть много способов использовать графики для манипуляции и искажения данных. Но человек, которому свойственна осторожность, постарается не попасть впросак.

НЕОБОЗНАЧЕННЫЕ ОСИ КООРДИНАТ

Основной способ манипуляции с помощью статистических графиков — не обозначать оси координат. Если оси никак не названы, вы можете выдумать что угодно. Вот пример, взятый с плаката, который один студент-исследователь показывал на конференции. Выглядел этот график таким образом (я его просто перерисовал):

Что все это значит? Из текста, приведенного на самом постере (а вовсе не на этом графике), нам известно, что специалисты исследуют активацию головного мозга пациентов, страдающих шизофренией (Ш). А что же такое КЗЗ? Нам не говорят, но из контекста — КЗЗ постоянно сравнивают с Ш — мы можем предположить, что это означает «контроль за здоровьем». Кажется, между КЗЗ и Ш должна быть разница, но… эм-м-м… на оси Y отмечены числа, и… единицы измерения могут быть какими угодно! Что мы видим? Результаты теста, уровни активации мозга, количество активированных зон мозга? Количество стаканчиков пудинга Jell-O, которые съели испытуемые, или количество фильмов с Джонни Деппом, которые они посмотрели за последние шесть недель? (Справедливости ради, исследователь позже опубликовал свои заключения в экспертном журнале и исправил все недочеты, на которые ему указали.)

В следующем примере график отображает брутто-продажи одного издательства, за исключением данных с платформы Kickstarter.

Как и в предыдущем примере (хотя в данном случае мы говорим об оси X), отмечены числа, но нам не сообщают, что они обозначают. Хотя в данном случае это и так очевидно: мы предполагаем, что 2010, 2011 и т. д. относятся к календарному или финансовому году, а тот факт, что линия между годами не гладкая, говорит о том, что данные отслеживаются ежемесячно (но, не имея нормальных подписей, мы это можем только предполагать). Оси Y нет совсем, поэтому мы не знаем, что конкретно тут замеряется (это проданное количество экземпляров или доллары?), а также не знаем, что означает каждая из горизонтальных линий. График может отражать рост продаж как с пяти центов до пяти долларов за год, так и с 50 миллионов до 500 миллионов долларов за год. Но не нужно беспокоиться — график сопровождало очень полезное примечание: «Это был еще один великолепный год». Думаю, нам просто нужно поверить им на слово.

УСЕЧЕННАЯ ВЕРТИКАЛЬНАЯ ОСЬ

Продуманный график четко показывает наиболее значительные крайние точки всего множества. Это особенно важно, если вы документируете текущие или проектируемые количественные изменения и хотите, чтобы читатели сделали правильные выводы. Если вы отражаете в графике уровень преступности, смертности, рождаемости, дохода — или любое иное количественное множество, которое может принимать нулевое значение, — тогда ноль должен быть минимальной точкой отсчета. Но если ваша цель — посеять панику или ужас, начните свой график поближе к нижней границе значений, это подчеркнет разницу, которую вы пытаетесь выделить, потому что наш глаз привлекает разница, показанная на графике, а настоящий ее размер остается незамеченным.

В 2012 году Fox News показали приведенный ниже график, чтобы показать, что могло бы случиться, если бы снижение налогов, задуманное Бушем, не состоялось.

Этот график создает визуальное впечатление, что размер налогов возрос бы, и намного: столбик справа в шесть раз выше столбика слева. Но кто захочет платить в шесть раз больше? Если на график посмотрит человек, который панически боится цифр (или просто взглянет на него мельком), он может и не рассмотреть оси и не заметить, что речь идет о разнице между налоговой ставкой в 35% и 39,6%. А это значит, что если налоги не снижать, то они вырастут всего на 13%, а не на 600%, как показано на картинке (увеличение процентных пунктов на 4,6 составляет 13% от 35%).

Если бы ось Y начиналась с нуля, мы бы обязательно заметили эти 13%:

РАЗРЫВ ВЕРТИКАЛЬНОЙ И ГОРИЗОНТАЛЬНОЙ ОСЕЙ

Представьте себе город, в котором за последние десять лет уровень преступности неуклонно растет на 5% в год.

Вроде бы ничего необычного. А теперь представьте, что вы занимаетесь продажами домашних сигнализаций и хотите немного напугать потенциальных клиентов, чтобы продать им свой товар. Используя все те же данные, просто прервите график по оси X. Это исказит действительность и волшебным образом обманет покупателей:

При взгляде на этот график создается впечатление, что уровень преступности сильно увеличился. Но вам-то лучше знать. Разрыв оси X вмещает цифры за пять лет в такой же промежуток, на который раньше приходилось два года. Неудивительно, что мы видим существенное увеличение. Это большой недочет в построении графика, но большинство читателей не утруждают себя разглядыванием осей, для них сойдет и так.

И вам совсем не нужно ограничивать свою креативность и довольствоваться разрывом оси X — вы можете добиться того же эффекта, разорвав и ось Y тоже, а потом скрыть содеянное, не прерывая линии. Вот посмотрите, как мы сделаем разрыв оси Y:

Конечно, это нечестно. Большинство читателей смотрят только на кривую и не замечают, что по вертикальной оси сначала отметки сделаны с интервалом в 40 сообщений о преступлении, а после числа 200 между соседними помещается только по восемь сообщений. Нам все еще весело?

По-хорошему, мы должны взять первый график с нормальными осями. Желая критически оценить данные, вы, возможно, захотите спросить, какие факторы повлияли на отбор и изображение данных.

Одно из объяснений может быть таким: рост преступности наблюдается в каком-то конкретном районе, известном своей неспокойной обстановкой, — а по всему городу уровень преступности уменьшается. Возможно, полиция и местная общественность просто решили, что в этом конкретном районе очень сложно навести порядок, и потому прекратили обеспечивать там соблюдение законов. Город же в целом достаточно безопасное место — может, даже безопаснее, чем когда бы то ни было, а преступность растет из-за одного злачного района.

Другой вариант: сводя воедино самые разные жалобы на преступников к одному показателю, мы упускаем одно серьезное соображение. Возможно, количество серьезных преступлений снизилось практически до нуля и, располагая большим количеством времени, полиция с особым рвением принялась выписывать штрафы за переход улицы в неположенном месте.

Может, желая понять, что же такое на самом деле статистика, будет логично спросить: «А как изменилось в этот промежуток времени население в этом городе?» Если оно увеличивалось больше, чем на 5% за год, уровень преступности, измеряемый числом преступлений на одного жителя, на самом деле должен был снизиться, из расчета коэффициента преступности на человека. Мы можем проиллюстрировать свою мысль, отметив количество преступлений, приходящихся на 10 тысяч жителей этого города:

КАК ВЫБРАТЬ ПРАВИЛЬНЫЙ МАСШТАБ И ОСЬ

Вас нанял на работу местный риелтор, который хочет, чтобы вы составили график изменений цены на дома в вашем районе за последние десять лет. Цены устойчиво растут на 15% в год.

Если вы хотите встревожить людей по-настоящему, почему бы тогда не изменить ось X, чтобы включить годы, по которым у вас нет данных? Добавив дополнительные показатели на оси X, как показано на рисунке, вы увеличите наклон кривой, изменив масштаб по оси X следующим образом:

А теперь обратите внимание, как легко такой график обманывает ваш глаз (на самом деле, конечно, мозг). И вот вы уже делаете два неверных вывода: первый — что когда-то, около 1990 года, цена на дом, должно быть, была очень низкой, а второй — что к 2030 году она будет такой высокой, что лишь немногие смогут позволить себе покупку. А значит, лучше бы купить дом уже сейчас!

Оба графика искажают реальную ситуацию: кажется, что темп роста увеличивается, в то время как он (темп) остается постоянным. На первом графике рост в 15% кажется в два раза больше на оси Y в 2014 году, нежели в 2006-м. Многое меняется с постоянной скоростью: зарплаты, цены, уровень инфляции, численность популяции, число заболевших. Если же вы наблюдаете постоянный рост (или снижение) чего-либо, наиболее точно данные отобразить можно на логарифмической шкале. Она устроена так, что постоянное изменение на одно и то же число процентов изображается равными промежутками по оси Y. А постоянная годовая скорость изменений потом выглядит как прямая линия, посмотрите:

ДВОЙНАЯ ОСЬ Y, ВНУШАЮЩАЯ СТРАХ

Тот, кто строит график, может легко скрыть любую ложь, предвидя, что большинство тех, кто его увидит, не будут всматриваться очень уж пристально. Благодаря этому можно легко заставить огромное количество людей поверить в самые невероятные вещи. Возьмем, например, нижеприведенный график, на котором отражена ожидаемая продолжительность жизни курильщиков и тех, кто не курит, в возрасте 25 лет.

График проясняет две вещи: опасность, которой подвергается курильщик, увеличивается со временем, и потому есть большая вероятность, что он умрет раньше того, кто не курит.

Разница невелика для возраста 40 лет, но риск не дожить до 80 лет для курильщика увеличивается более чем вдвое — с менее чем 30% до более 60%. Это честный и точный способ представить данные графически. Но представьте, что вы 14-летний курильщик, который хочет уговорить родителей разрешить ему курить. В таком случае этот график вам не поможет. Придется покопаться в своем мешке с реквизитом фокусника и выудить оттуда двойную ось Y. Справа появится еще одна ось, числа на ней совсем не такие, как слева, и относятся лишь к тем, кто не курит. Как только вы это сделаете, график будет выглядеть вот так:

Теперь все выглядит так, словно вероятность умереть от курения у вас такая же, как и по любой другой причине. Не курение будет источником ваших бед — а ваш возраст! Самая большая сложность с такими графиками, в которых используются двойные оси Y, заключается в том, что вы всегда можете разметить вторую ось любым удобным для себя способом.

В журнале Forbes, весьма авторитетном издании, внушающем доверие, приводится очень похожий график, отражающий связь расходов на учащихся средней школы и их баллов по тесту SAT . Это очень распространенный в США стандартизированный тест для приема в высшие учебные заведения.

На графике все выглядит так, словно увеличение расходов на ученика (черная кривая) никоим образом не влияет на увеличение баллов по SAT (серая кривая). Некоторые оппозиционно настроенные политиканы могут утверждать, что это деньги налогоплательщиков, выброшенные на ветер. Теперь вы понимаете, что выбор разметки для второй оси Y (по правой стороне) ничем не обоснован. Если бы вы были школьным администратором, то, возможно, просто взяли бы те же самые данные, изменили разметку на оси справа — и готово! Налицо увеличение расходов, которое обеспечивает более качественное образование (как следует из увеличения баллов за тест!).

Этот график, однако, отображает принципиально другую историю. Какой из них не лжет? Чтобы это понять, нужно измерить, насколько меняется одна переменная при изменении другой. Для этого есть показатель, известный как корреляция. Корреляции варьируются от –1 до 1. Корреляция 0 означает, что одна переменная совсем не связана с другой. Корреляция –1 означает, что, когда одна переменная идет вверх, другая абсолютно синхронно идет вниз. Корреляция 1 означает, что, когда одна переменная идет вверх, вторая делает то же самое, тоже абсолютно синхронно. Кажется, первый график иллюстрирует корреляцию 0, второй — ту, что очень близка к 1. Фактическая корреляция для этого набора данных равна 0,91 — и это очень сильная корреляция. Повышенные расходы на студентов, по крайней мере в этом наборе данных, ассоциируются с лучшими показателями при выполнении тестов SAT.

С помощью корреляции можно также оценить, в какой степени результат объясняется с помощью представленных переменных. Корреляция 0,91 говорит о том, что мы можем объяснить 91% студенческих баллов за тест SAT, посмотрев на количество школьных расходов на каждого студента. А значит, можем понять, насколько расходы объясняют разнообразие баллов SAT.

Осенью 2015 года в США во время заседания комитета Конгресса развернулась полемика, касающаяся графиков с двойной осью Y. Джейсон Чаффец представил график, отображающий две услуги, предоставляемые организацией Planned Parenthood, — аборты, а также скрининг и профилактику рака:

Конгрессмен пытался донести мысль, что за семилетний период организация Planned Parenthood увеличила количество абортов (против чего он выступал) и снизила количество скринингов рака и профилактических процедур. Planned Parenthood этого не отрицала, но из-за искаженного графика кажется, что количество абортов превышает количество процедур, связанных с лечением рака. Возможно, тот, кто составлял график, чувствовал за собой вину и поэтому привел не только линии, но и актуальные числовые данные. Давайте посмотрим внимательнее. Количество абортов, сделанных за 2013 год (и на этом график заканчивается), равно 327 тысячам. А медицинских услуг, связанных с диагностированием и лечением рака, было оказано почти в три раза больше, 935 573. (Кстати, подозрительно, почему данные по абортам выражаются округленными числами, а те, что касаются рака, так точны.) Тут у нас особенно коварный случай: подразумевается, что на графике две оси Y, но обе они не изображены!

Если построить график как следует, получится вот так:

Мы видим, что количество абортов увеличилось очень незначительно, если сравнивать с сокращением услуг по диагностированию и лечению рака.

Есть еще кое-что, что вызывает подозрения в оригинальном графике: редко когда можно встретить столь ровные линии. Такое ощущение, что составитель графика просто взял данные за два определенных года, 2006-й и 2013-й, и сравнил их, соединив прямой линией. Возможно, два этих года были выбраны специально, чтобы усилить разницу. А может, в промежутке между 2007-м и 2012-м существовали большие колебания — нам это неизвестно. Ровные линии создают впечатление идеальной линейной (прямая линия) функции, что маловероятно.

Подобные графики не всегда отображают правдивые истории. Есть ли что-нибудь, что могло бы объяснить приведенные данные, помимо рассказа о том, что Planned Parenthood хочет провести как можно больше абортов (и в то же время позволяет людям умирать от рака)? Посмотрите на второй график. В 2006 году организация Planned Parenthood провела 2 007 271 исследование раковых опухолей и сделала 289 750 абортов, что примерно в семь раз меньше. К 2013 году эта разница сократилась, но количество раковых исследований все равно было примерно в три раза больше.

У Сесиль Ричардс, президента Planned Parenthood, имеется на этот счет объяснение: изменение медицинских норм при оказании некоторых услуг по предотвращению и лечению рака, например пап-мазка, сократило количество людей, которым был рекомендован скрининг. Другие изменения, например само отношение к абортам, изменение возрастной структуры населения, а также возросшее количество людей, имеющих доступ к альтернативным методам лечения, — повлияли на эти цифры, поэтому представленные данные не доказывают, что Planned Parenthood поддерживает аборты, хотя и не исключено, что так оно и есть.

Назад: Чехарда со средними
Дальше: Возможные уловки при сообщении данных