Книга: Темные данные: Практическое руководство по принятию правильных решений в мире недостающих данных

Назад: ГЛАВА 2. Обнаружение темных данных. Что мы собираем, а что нет

Дальше: ГЛАВА 4. Непреднамеренные темные данные. Видим одно, регистрируем другое

Глава 3

Определения и темные данные

Что именно вы хотите узнать?

Начнем с очевидного: полезность данных зависит от того, то ли мы собираем и не допускаем ли при этом искажений. Каждое из этих условий чувствительно к темным данным. Фактически число потенциальных рисков, связанных с темными данными, настолько велико, что составить их полный перечень просто невозможно. Тем не менее представление о типовых ситуациях, на которые нужно обращать внимание, может быть жизненно важным при работе с темными данными. В этой главе мы рассмотрим постановку целей для сбора данных, а в следующей — то, как этих целей достигать, причем и то и другое сквозь призму нашей основной темы.

Ошибки в определениях и измерениях

Одна из фундаментальных причин возникновения темных данных — использование неподходящих определений или (что часто одно и то же) непонимание, о чем идет речь. Давайте разберем это на примерах.

Иммиграция

Опросы всегда проводят с конкретной целью, административные же данные собирают по множеству причин. Это означает, что административные данные могут не содержать ответа на интересующий вас вопрос. Например, в Великобритании недавно возник спор о точности статистики по долгосрочной международной миграции (LTIM). Национальная статистическая служба в соответствии с данными Отчета по международным пассажирским перевозкам сообщила, что за год, завершившийся в сентябре 2015 г., в Великобританию иммигрировало из Евросоюза 257 000 человек. В то же время число граждан Евросоюза, зарегистрировавшихся для получения номеров социального страхования, за этот период составило 655 000 человек. Номера социального страхования — это личные счета всех, кто работает в Великобритании, обеспечивающие надлежащий учет налоговых платежей и взносов в систему национального страхования (куда относятся в том числе медицинские страховки и пенсии), поэтому несоответствие кажется по меньшей мере странным. Похоже, что цифры Национальной статистической службы далеки от реальности. По этому поводу британский политик Найджел Фарадж выразился так: «Они пускают нам пыль в глаза. Номера социального страхования — это простое и четкое отражение реального числа людей в этой стране, так как без такого номера вы не сможете ни легально работать, ни претендовать на получение пособия».

Отчет по международным пассажирским перевозкам, который учитывает основные пассажиропотоки через британские воздушные и морские порты, а теперь еще и Евротоннель, выпускается с 1961 г. Ежегодно проводится 700 000–800 000 интервью. Хотя это число представляет лишь небольшую часть людей, приезжающих в Великобританию, ответы могут быть использованы для оценки общего числа мигрантов. Но это всего лишь оценка, и с ней неизбежно связана погрешность. Национальная статистическая служба определила величину этой погрешности как ±23 000, получив интервал от 234 000 до 280 000, и заявила, что на 95% уверена в попадании истинных цифр в этот диапазон. Погрешность, хотя и существенная, явно не объясняет такое большое отличие от числа номеров социального страхования.

Когда Национальная статистическая служба подробно изучила расхождение между своей оценкой и числом номеров социального страхования, оказалось, что основной причиной этой разницы была краткосрочная миграция (мигранты, прибывающие на срок от 1 до 12 месяцев). Долгосрочные мигранты остаются на 12 месяцев и более. Краткосрочные мигранты могут работать и подавать заявки на получение номеров социального страхования, но определяющим показателем в данном случае должна быть статистика LTIM (по долгосрочной международной миграции). Национальная статистическая служба заявила, что «различие определений этих данных является фундаментальным и невозможно обеспечить согласование двух типов учета, просто “складывая” и “вычитая” номера страховок. Эти регистрационные данные не могут служить показателем LTIM». Короче говоря, административные данные были полезны в тех вычислениях, для которых они были собраны, и не подходили для других целей. Неподходящие или несоответствующие определения эффективно скрывают интересующие нас данные и превращают их в темные данные DD-тип 8: неверно определяемые данные. Ключевой момент в том, что данные становятся или не становятся темными в зависимости от того, что вы хотите узнать.

Преступность

Другой пример темных данных, возникающих из-за различий в определениях, дает нам статистика преступности. На национальном уровне такая статистика по Англии и Уэльсу поступает из двух основных и довольно далеких друг от друга источников: Обзор преступности в Англии и Уэльсе (CSE & W) и полицейская статистика правонарушений (PRC). CSE & W является эквивалентом Национального обзора преступности и виктимизации в США. Он был запущен в 1982 г. (одновременно с Британским обзором преступности) для изучения опыта столкновения с преступностью в течение последнего года. Данные PRC предоставляются 43 полицейскими управлениями Англии и Уэльса, а также Британской транспортной полицией, и анализируются Национальной статистической службой.

Различия в характере этих процессов сбора информации непосредственно влияют на возникновение темных данных. Поскольку обзор CSE & W призван выяснить, жертвами каких преступлений становились респонденты, то он по определению не дает никакой информации, скажем, об убийствах или хранении наркотиков. Он также не затрагивает людей в местах коллективного проживания, таких как дома престарелых или студенческие общежития, и не распространяется на преступления против коммерческих организаций или государственных органов. Это говорит о большом потенциале для темных данных, хотя когда мы четко определяем охватываемую обзором область, то делаем этот риск видимым.

Статистика PRC также содержит темные данные, но они отличаются от темных данных обзора CSE & W. По определению, статистика PRC не включает в себя преступления, о которых не сообщают полиции, например, потому, что жертвы порой не рассчитывают на ее помощь. Это существенный момент, поскольку, согласно оценкам, в полицию сообщают в среднем только о 4 из 10 преступлений, хотя и очевидно, что это число различно для разных видов преступности. Более того, в полицейской статистике отражаются в основном так называемые регистрируемые преступления, которые могут быть рассмотрены судом присяжных. Дополнительные сложности возникают из-за механизмов обратной связи (DD-тип 11: искажения обратной связи и уловки). Например, число преступлений, связанных с хранением наркотиков, зависит от активности самой полиции, а эта активность зависит от предполагаемого объема наркотиков, имеющихся у людей, на который влияет число зафиксированных преступлений, связанных с хранением наркотиков, в прошлом.

Использование разных определений объясняет расхождения между уровнями преступности, которые публикуют эти два источника. Например, в 1997 г., по данным PRC, было совершено 4,6 млн правонарушений, в то время как, по оценкам CSE & W, их было 16,5 млн. Различия в определениях также объясняют крайне озадачивший экспертов и читателей факт, состоящий в том, что, согласно PRC, число преступлений в период с 1997 по 2003 г. возросло (с 4,6 млн до 5,5 млн, в то время как обзор показал сокращение их количества (с 16,5 млн до 12,4 млн). Так все-таки, растет или сокращается преступность? Несложно догадаться, чьи данные выбрало большинство СМИ для публикации.

Медицина

Число областей, в которых определения могут порождать темные данные по причине того, что они не включают те виды данных, которые мы хотели бы получить, огромно. Иногда последствия таких ситуаций бывают просто поразительными. Например, именно проблема несоответствия определений лежит в основе того факта, что сегодня от болезни Альцгеймера умирает больше людей, чем в прошлом.

Болезнь Альцгеймера представляет собой наиболее распространенную форму деменции. Она носит прогрессирующий характер, когда на ранней стадии появляется незначительная забывчивость, которая на более поздних стадиях перерастает в дезориентацию, неспособность понимать происходящее вокруг и изменение личности. Считается, что болезнь в ближайшее время затронет около 50 млн человек во всем мире и со временем этот показатель будет только расти, достигнув, по прогнозам, к 2030 г. 75 млн. И темные данные могут объяснить такой рост как минимум двумя способами.

Во-первых, никто не умирал от этой болезни до 1901 г., поскольку именно тогда немецкий психиатр Алоис Альцгеймер впервые описал случай заболевания, которое впоследствии было названо его именем. Кроме того, первое время диагноз ставили только людям в возрасте от 45 до 65 лет с симптомами деменции и лишь позже, уже в последней четверти XX в., было снято ограничение по возрастному диапазону. Очевидно, что такое расширенное определение изменило число диагностированных людей. Данные, которые ранее рассматривались как несущественные, попали в поле зрения.

Во-вторых (и это объяснение роста смертности от болезни Альцгеймера может показаться парадоксальным), во всем виноват прогресс медицинской науки. Благодаря ему люди, которые раньше бы умерли молодыми, теперь могут прожить достаточно долго, чтобы стать потенциально уязвимыми для таких медленно развивающихся недугов, как болезнь Альцгеймера. Это заставляет задуматься, действительно ли продление жизни является абсолютным благом.

Тот факт, что число диагностируемых случаев аутизма в Соединенных Штатах удвоилось с 2000 г., также может быть в значительной степени объяснен темными данными (DD-тип 8: неверно определяемые данные). В главе 2 мы уже рассмотрели одну из причин этого — эвристику доступности, когда сам факт аутизма все более осознается обществом. Но есть и другая серьезная причина такого роста, которая состоит в том, что изменения претерпел сам подход к определению и диагностике аутизма. В частности, хотя в 1980 г. аутизм был включен в «Диагностическое и статистическое руководство по психическим расстройствам», в 1987 и в 1994 гг. метод его диагностики был существенно изменен, при этом критерии были ослаблены. Такое ослабление диагностических критериев соответствия означает, что им удовлетворяет большее число людей.

Вдобавок к этому в 1991 г. министерство образования США постановило, что диагноз «аутизм» дает право ребенку на специальные образовательные услуги, а в 2006 г. Американская академия педиатрии рекомендовала педиатрам проверять всех детей на аутизм во время стандартных визитов на дом. Если меняется сам подход к определенным данным, то вполне логично ожидать, что и поведение людей при сборе этих данных тоже будет меняться (это явление обратной связи мы подробно рассмотрим в главе 5). Такой же эффект можно проследить на примере запуска в Англии в феврале 2009 г. сразу нескольких кампаний национального масштаба по профилактике деменции среди населения в соответствии с Национальной стратегией по деменции, направленной на улучшение качества диагностики и медицинской помощи. Неудивительно, что по сравнению с 2009 г. частота выявления деменции увеличилась примерно на 4% в 2010 г. и на 12% в 2011 г.

Экономика

В целом можно заключить, что изменение определений с течением времени часто меняет и характер собираемых данных. Это не только затрудняет ретроспективные сравнения, но также может вызвать обвинения в нечестности. Ярким примером служит определение безработицы: достаточно слегка изменить его и, о чудо, результаты работы правительства начинают выглядеть намного лучше.

Другим примером в экономике является измерение инфляции. Оно основано на изучении цен на определенный набор товаров и услуг, называемых потребительской корзиной (которой в природе, конечно, не существует), и отслеживании изменений средней цены на эту корзину с течением времени. Однако из-за существования темных данных (DD-тип 8: неверно определяемые данные) все обстоит не так уж просто. Например, возникает вопрос о том, как рассчитать среднее значение, поскольку в статистике есть несколько способов сделать это: среднее арифметическое, среднее геометрическое, среднее гармоническое и т.д. Недавно Великобритания перешла от индекса инфляции, основанном на среднем арифметическом, к индексу на основе среднего геометрического, что привело его в соответствие с индексами большинства других стран. Когда меняется определение, вы начинаете смотреть на вещи с другой точки зрения, поэтому меняются и аспекты данных, которые вы видите.

Помимо изменения формулы расчета, бывают и более фундаментальные причины, по которым темные данные возникают в индексах инфляции: прежде чем производить расчет, необходимо решить, какие товары и услуги включать в потребительскую корзину и как именно получать информацию о ценах. В целом, как показали предыдущие примеры, мы должны осознавать риск появления темных данных всякий раз, когда в процессе сбора данных встаем перед выбором. При расчете инфляции важнейший вопрос — что положить в потребительскую корзину — потенциально проблематичен, поскольку общество меняется, а индексы инфляции должны так или иначе отражать стоимость жизни. Я намеренно использовал выражение «так или иначе», чтобы подчеркнуть неоднозначный факт: разные индексы измеряют разные аспекты влияния инфляции. Одни измеряют то, как ценовые изменения влияют на людей, другие — как они влияют на экономику в целом и т.д. В любом случае важно, чтобы потребительская корзина была релевантной, то есть состояла из товаров и услуг, которые люди действительно покупают. Для сравнения представим, что могло быть включено в корзину индекса цен 200 лет назад, и сопоставим с тем, что входит в нее сегодня. Два столетия назад свечи были бы важнейшим элементом корзины, но сегодня расходы на них далеки от того, чтобы счесть их значимыми. Свечи и уголь уступили место мобильным телефонам и автомобилям. Это означает, что у нас есть номинальный список товаров, которые в принципе могут быть включены в корзину, но не все из них в нее попадают. Несмотря на глубокое продумывание того, какие именно товары следует учитывать, ясно, что при расчете инфляционных индексов всегда остается элемент неопределенности и произвола.

Что касается того, как получать информацию о ценах на товары в корзине, то традиционно для этого принято проводить опросы и направлять сборщиков данных непосредственно в магазины и на рынки. Бюро трудовой статистики США обследует таким образом около 23 000 предприятий и регистрирует цены около 80 000 предметов потребления каждый месяц, суммируя их, чтобы получить индекс потребительских цен. Другие страны используют аналогичный подход.

Возможно, вы заметили, что этот традиционный метод сбора ценовых данных полностью игнорирует покупки онлайн. Учитывая, что на такие покупки в настоящее время приходится уже около 17% розничных продаж в Великобритании и почти 10% розничных продаж в США, становится ясно, что многие релевантные цены никак не учитываются в индексе. (Стоит отметить, что последние цифры действительны на момент написания книги, в то время как тенденция стремительно нарастает.) По этой причине многие страны начали разрабатывать методы учета цен в интернете. Эти методы не являются копией традиционных, потому что корзины в том и другом случае отличаются. Мы увидим пример такого метода в главе 10.

Общество меняется непрерывно, а сегодня это происходит куда быстрее, чем когда-либо в прошлом, поскольку компьютер и сопутствующие ему технологии — мониторинг, глубинный анализ данных, искусственный интеллект, автоматизированные транзакции и глобальная сеть — оказывают все большее влияние. Такая скорость изменений имеет важные последствия для анализа информации с точки зрения темных данных, поскольку прогнозы всегда строятся на том, что случалось в прошлом. Последовательности данных во времени в науке называют временными рядами. Скорость изменения методов и технологий сбора данных означает, что временные ряды часто ограничены весьма недавним прошлым. Новые типы данных потому и называются «новые», что они имеют недолгую историю и доступны лишь за относительно короткий период времени. За пределами же его лежит тьма.

Невозможно измерить все

Наборы данных всегда конечны. Это, безусловно, верно с точки зрения количества случаев — конечного числа людей в популяции или конечного числа измеряемых событий. Но это верно и с позиции того, что измеряется или какие данные собираются. Изучая людей, мы можем определять их возраст, вес, рост, квалификацию, любимую еду, доход и множество других вещей. Однако всегда будет оставаться бесчисленное множество характеристик, не включенных в наши определения. Эти характеристики неизбежно становятся темными данными со всеми вытекающими последствиями.

Причинность

Когда демографические исследования показали связь между раком легких и курением, выдающийся статистик Рональд Фишер отметил, что это необязательно означает, что курение вызывает рак. Он привел несколько возможных причин возникновения такой связи явлений, в том числе вероятность того, что и рак легких, и предрасположенность к курению могут быть вызваны каким-то третьим общим фактором, например на генетическом уровне. Здесь мы имеем дело с классическим примером темных данных DD-тип 5: неизвестный определяющий фактор — некоторой неизмеренной переменной, которая служит причиной и того и другого и даже приводит к корреляции между ними, при этом сами по себе изучаемые явления непосредственно не влияют друг на друга. Этот пример показывает, насколько сложно бывает обнаружить темные данные.

Мы уже сталкивались с подобной ситуацией в начале книги. В главе 1 я говорил, что в раннем школьном возрасте рост детей соотносится с их лексическим запасом. Если вы проведете исследование выборки детей в возрасте от 5 до 10 лет, измеряя их рост и объем словаря, то обнаружите, что у тех, кто повыше, в среднем и словарный запас больше. Из этого напрашивается вывод: если давать детям больше новых слов, они лучше растут. Можно пойти еще дальше и провести второе исследование, измеряя рост детей в начале и в конце года, в течение которого они интенсивно осваивают новые слова. Результаты будут впечатляющими — рост детей увеличится.

Конечно, это шутка, и вы понимаете абсурдность подобных выводов. Хотя рост и словарный запас детей в указанном возрастном диапазоне, безусловно, взаимосвязаны, эта связь не носит причинно-следственного характера. Дело в том, что оба параметра зависят от третьей переменной — той, которую мы не планировали измерять в нашем исследовании, а именно от возраста детей. Возраст в этом примере является темными данными, его незнание может привести к ложным выводам.

Эта ситуация отличается от той, в которой отсутствуют значения некоторых атрибутов для отдельных объектов, и от той, когда для отдельных объектов отсутствуют значения всех атрибутов. Здесь значения для определенного атрибута (или атрибутов) отсутствуют для всех объектов в базе данных. Все записи для такой переменной будут обозначены пробелами или словом «неизвестно», если вообще эта переменная была включена в исследование. Например, в предыдущем примере мы могли просто забыть спросить о том, сколько лет респондентам, поэтому у нас нет информации о точном возрасте ни одного из них. Или, возможно, мы не подумали о том, что возраст будет иметь значение, поэтому нам не пришло в голову задавать соответствующий вопрос. И для того и для другого имеются естественные причины: если исследование будет перегружено вопросами, это отрицательно скажется на уровне отклика, поэтому отбирать их приходится тщательно.

Парадокс!

Иногда последствия влияния темных данных DD-тип 5: неизвестный определяющий фактор могут буквально ставить в тупик.

Трагедия «Титаника» — затонувшего океанского лайнера — известна всем. Но мало кто знает, что тщательное изучение показателей выживаемости среди пассажиров и членов экипажа выявило нечто любопытное. Как видно из табл. 2, а, на судне было 908 членов экипажа, из которых выжило только 212 человек, то есть 23,3%, а из 627 пассажиров третьего класса — тех, чьи каюты находились на нижних палубах корабля и кому было труднее выбраться, — выжил только 151 человек, то есть 24,1%. Хотя показатели выживаемости в этих двух группах не сильно отличаются, тем не менее мы видим, что вероятность выживания пассажиров была несколько выше.

Но давайте взглянем на показатели выживаемости мужчин и женщин по отдельности, приведенные в табл. 2, б.

В экипаже насчитывалось 885 мужчин, из которых 192 выжили, показатель выживаемости составил 21,7%. Среди пассажиров третьего класса 462 были мужчинами, 75 выжили, показатель составил 16,2%. У членов экипажа мужского пола более высокая выживаемость, чем у мужчин из третьего класса.

Из 23 членов экипажа женского пола выжили 20, что составляет 87,0%. Среди пассажиров третьего класса было 165 женщин, 76 выжили, показатель выживаемости составил 46,1%. Представительницы экипажа имеют более высокую выживаемость, чем пассажирки третьего класса.

Минуточку, что происходит? В расчете для мужчин и женщин по отдельности экипаж имеет более высокий показатель выживаемости, чем пассажиры третьего класса. Однако в целом его выживаемость ниже.

Здесь нет никакого трюка — цифры соответствуют действительности. Мы имеем дело с явлением, которое иногда так и называют парадоксом Симпсона, в честь Эдварда Симпсона, описавшего его в статье в 1951 г. (хотя это явление уже было описано как минимум на полвека раньше).

Последствия парадокса Симпсона могут быть очень серьезными. Если бы мы не учитывали пол людей на «Титанике», то есть если бы эти данные отсутствовали, результаты нашего анализа показали бы, что пассажиры третьего класса с большей вероятностью выживут, чем члены экипажа. Но это утверждение было бы ложным в отношении мужчин или женщин в отдельности. Это означает, что если бы мы решили определить вероятность выживания человека вообще на борту лайнера, то получили бы неверную картину, поскольку он мог быть мужчиной или женщиной.

Далее мы подробно рассмотрим, почему возникают подобные ситуации, но, думаю, уже вполне понятно, что их возможные последствия выглядят устрашающе. Конечно, никто и не думал регистрировать необъятное число характеристик всех, кто плыл на корабле. В то же время если любая из этих характеристик может повлиять на наши выводы, то пренебрегая ею, мы создаем отсутствующие данные, способные вводить в заблуждение. Возможно, это не так критично в случае с «Титаником», поскольку речь идет об исторических данных, но давайте рассмотрим другой пример.

Предположим, мы проводим клиническое испытание, которое обсуждалось в предыдущей главе, сравнивая препарат А с препаратом Б. Для этого мы даем препарат А одной группе людей, а препарат Б — другой. Обе группы включают людей разных возрастов, и для удобства мы будем относить их либо к «младшим», либо к «старшим», в зависимости, скажем, от того, являются ли они моложе или старше 40 лет. Далее предположим, что в группе, принимающей препарат А, 10 младших и 90 старших, в то время как в группе, принимающей препарат Б, 90 младших и 10 старших.

Теперь посмотрим на результаты, где чем выше значение, тем эффективнее препарат. Эти гипотетические результаты приведены в табл. 3.

Предположим, средний балл для младших в группе А равен 8, а средний балл для младших в группе Б — 6, как показано в табл 3, а. Это говорит о том, что препарат А более эффективен для молодых, поскольку 8 больше 6.

Аналогично для старших предположим, что средний балл в группе А равен 4, а средний балл в группе Б — 2, как во втором ряду значений табл. 3, а. Для старших препарат А также более эффективен, чем препарат Б.

Хотя средний балл для старших ниже, чем для младших, очевидно, что и для тех и для других препарат А более эффективен, чем препарат Б. Мы определенно должны рекомендовать препарат А для всех возрастов.

А как обстоит дело в целом? Общий средний балл всех людей, получающих препарат А, составляет (8 × 10 + 4 × 90)/100 = 4,4, тогда как общий средний балл всех, получающих препарат Б, равен (6 × 90 + 2 × 10)/100 = 5,6. Эти результаты отображены в табл. 3, б. В целом, когда мы игнорируем возраст пациентов, препарат Б получает более высокий балл, чем препарат A.

Это означает, что если бы мы не регистрировали возраст пациентов, то есть при отсутствии этих данных, мы бы пришли к выводу, что препарат Б эффективнее, чем препарат A, хотя для младших A лучше, чем Б, и для старших A лучше, чем Б. Иначе говоря, А лучше, чем Б, для всех.

Первое, что приходит в голову: мы должны регистрировать возраст при сборе данных. Это, конечно, хорошо, но мы можем также регистрировать и множество других переменных, любая из которых грозит поставить наши результаты с ног на голову. При этом мы не способны зарегистрировать все возможные переменные, а значит, темные данные будут всегда.

Ключ к решению состоит в том, как именно рассчитывать общие средние значения. В примере с испытаниями препаратов в группе А старших намного больше, чем младших, в то время как для группы Б верно обратное. Это приводит к снижению общего среднего значения: 8 больше 6, а 4 больше 2, но если учесть подавляющую долю старших в группе при расчете среднего значения 8 и 4 и подавляющую долю младших при усреднении 6 и 2, то результат изменится на противоположный.

Итак, теперь мы видим корни проблемы — это разные доли старших и младших в наших группах. В группе получавших препарат А было всего 10% младших, а в группе получавших препарат Б младших было 90%. Если бы обе группы имели равные доли младших и старших, то проблемы бы не возникло. Поскольку клинические испытания относятся к экспериментальным исследованиям, в которых мы контролируем число пациентов, получающих каждый из препаратов, проблему устранить возможно, сбалансировав доли младших и старших и сделав их одинаковыми в каждой группе.

Такой метод работает, если мы контролируем состав и численность групп. Но в случае с «Титаником» это невозможно: пассажиры были пассажирами, члены экипажа — членами экипажа, и этого изменить мы никак не можем.

Ниже приведен еще один пример, в котором мы не контролируем, кто в какую группу входит.

По данным исследования 1991 г. о взаимосвязи расовой принадлежности и вынесении смертных приговоров по обвинениям в убийстве на территории Флориды, 53 из 483 подсудимых европеоидной расы и 15 из 191 подсудимых афроамериканцев были приговорены к смертной казни. В процентном отношении приговоренных белых (11,0%) было больше, чем афроамериканцев (7,9%), как это показано в табл. 4, а.

Но если мы примем во внимание не только расу обвиняемого, но и расу жертвы, то получится несколько иная и вновь обескураживающая картина.

Данные в табл. 4, б показывают, что в случаях, когда жертва принадлежала к белому населению, к смертной казни было приговорено 53 из 467 (11,3%) белых подсудимых и 11 из 48 афроамериканцев (22,9%). А в случаях, когда жертвой был афроамериканец, суд приговорил к казни 0 из 16 (0%) белых подсудимых и 4 из 143 афроамериканцев (2,8%). Таким образом, среди приговоренных к смертной казни за убийство белого человека доля афроамериканцев выше (22,9% против 11,3%); и среди приговоренных к казни за убийство афроамериканца доля обвиняемых той же расы снова оказывается выше (2,9% против 0%). Однако в целом при этом к смертной казни за убийство в процентном отношении приговорили меньше афроамериканцев, чем белых (7,9% против 11,0%).

Как и прежде, объяснение заключается в диспропорциях между группами. Общая доля приговоренных белых (11,0%) вычисляется путем усреднения результатов по 467 белым жертвам и 16 чернокожим; общая доля приговоренных афроамериканцев (7,9%) — усреднением результатов по 48 белым жертвам и 143 чернокожим. Эти два отношения, 467/16 и 48/143, являются обратными, что неизбежно искажает общие средние значения.

И снова вы можете справедливо заметить: «Хорошо, разные подходы дают разные результаты, и мы понимаем, почему так происходит. Но при этом оба кажутся разумными, так какие из значений правильные?»

Ответ на этот вопрос зависит от того, что именно вы хотите узнать. В частности, вы хотите задать вопрос о совокупности в целом с указанием размеров ее относительных групп или же провести сравнение внутри этих групп? Если первое, то игнорировать расщепляющую переменную — это нормально. Если второе, то, очевидно, ее необходимо включить в расчет.

Обратите внимание, что пример с клиническим испытанием препарата немного отличается от двух других. В нем не было ничего неизменного и предопределенного в отношении числа младших и старших в каждой группе: эти числа были выбраны экспериментатором. Напротив, в примерах с «Титаником» и смертной казнью цифры были в точности такими, какими они остались в истории. Поэтому в этих двух примерах имеет смысл говорить обо всей совокупности, в то время как при клинических испытаниях, когда экспериментатор сам определяет пропорции возрастов и может их менять, вероятно, нет смысла этого делать. (Возможны исключения, когда цель состоит в том, чтобы увидеть, насколько эффективным является лечение для населения в целом, с воспроизведением пропорций возрастных групп реальной популяции.)

Таким образом, необходимо понимать две вещи: то, какой вопрос вы задаете, и, то, что наличие темных данных зависит от этого вопроса. Как ни банально это прозвучит, но данные, которые вам предстоит собрать, анализ, который вы проведете, и ответ, который получите, зависят от того, что именно вы хотите узнать.

Между или внутри групп?

Проблемы, подобные парадоксу Симпсона, встречаются и в других обличьях. Например, экологическая ошибка возникает, когда по факту корреляции двух групп делается вывод о корреляции между составляющими эти группы объектами. Классический пример был описан в 1950 г. социологом Уильямом Робинсоном. Корреляция между процентом иммигрантов в первом поколении и процентом грамотных в 48 штатах США в 1930 г. составляла 0,53. Это означает, что в штатах с более высокой долей «понаехавших» также и более высокий уровень грамотности (во всяком случае больше людей способны читать на американском английском). На первый взгляд, эти цифры говорят о том, что рожденные за пределами Соединенных Штатов более склонны к обучению. Но анализ внутри штатов продемонстрировал иную картину: средняя корреляция составила –0,11. Отрицательное значение показывает, что иммигранты в первом поколении менее предрасположены к освоению грамотности. Если бы информация по каждому из штатов была недоступна и находилась в области темных данных, то можно было бы сделать неверный вывод о прямой зависимости уровня грамотности от страны рождения.

Родственная этой проблема, известная как смещение вследствие пропущенных переменных, возникает в более сложных статистических методах. Множественная регрессия — это статистический инструмент, который увязывает множество независимых переменных (предикторов) с зависимой от них переменной. Хотя есть особые случаи, для которых это неприменимо, в целом можно сказать, что пропуск любого предиктора ведет к появлению мнимых связей между другими предикторами и зависимой переменной. И, как и в предыдущем примере, поскольку мы не можем включить все возможные предикторы, пропуск некоторых из них неизбежен. Риск, который несут такие темные данные, заключается в том, что выводы могут оказаться неверными. Конечно, статистики, зная об этих проблемах, разрабатывают инструменты для смягчения их воздействия.

Скрининг

В начале своей статистической карьеры я участвовал в проекте по выявлению предрасположенности к остеопорозу у женщин. Остеопороз — это патология, при которой кости теряют массу, становятся хрупкими и с большей вероятностью могут сломаться. По этой причине падения для пожилых людей могут быть особо опасными. Способы измерения плотности костей, например центральная двухэнергетическая рентгеновская абсорбциометрия (центральная DXA), существуют, но они, как правило, очень сложны и недешевы. Это означает, что нужен процесс, позволяющий идентифицировать людей, которые могут страдать от этого состояния. Цель проекта состояла в разработке простой анкеты, которая позволяет получить оценку вероятности возникновения остеопороза на основе известных факторов риска. При этом анкета должна была заполняться респондентом самостоятельно без необходимости присутствия специалиста.

Наша анкета, как и другие подобные инструменты скрининга, не могла бы полностью отделить имеющих предрасположенность от тех, у кого ее нет. Но даже несовершенная система, способная выявлять большинство тех, кто находится в группе высокого риска, была бы чрезвычайно ценной. Это позволило бы службам здравоохранения сосредоточить на них внимание и протестировать с помощью более точной и дорогостоящей процедуры.

Несовершенная система допускает ошибки двух видов. С одной стороны, она может пропустить того, у кого есть патология, — в нашем примере это кто-то с остеопорозом при отсутствии стандартных признаков. А с другой стороны, система может отнести здорового человека к имеющим заболевание. Очевидно, что чем ниже уровни ошибок обоих видов, тем лучше инструмент проверки. Казалось бы, можно снизить частоту ошибок первого вида до нуля, просто классифицируя всех как подверженных остеопорозу, но это делает скрининг бесполезным. И что еще хуже, это увеличивает уровень ошибок второго вида: мы классифицируем всех одинаково без реального выполнения условий. Аналогично мы могли бы уменьшить уровень ошибок второго вида до нуля, классифицируя всех как не имеющих предрасположенности, но и это совершенно бессмысленно. Учитывая, что инструмент несовершенен, нужно было найти какой-то баланс. Или, другими словами, следовало признать тот факт, что кого-то мы неизбежно будем классифицировать неверно.

Любой, кто окажется по результатам скрининга в группе высокого риска, будет подвергнут более тщательному обследованию, например с использованием центральной DXA. Среди этих людей будут и те, кого мы неверно классифицируем как потенциально страдающих остеопорозом, и в этом случае тест покажет отсутствие заболевания. Но другая группа, к которой по результатам скрининга будут отнесены не имеющие предрасположенности, не будет обследоваться так тщательно. Таким образом, мы не узнаем, с кем из этой группы мы ошиблись, по крайней мере до тех пор, пока их состояние не покажет со всей очевидностью нашу ошибку. Можно только надеяться (если инструмент скрининга достаточно эффективен), что таких окажется не слишком много, но их истинное состояние будет для нас темными данными.

Ошибочная классификация больных людей как здоровых может быть весьма опасна, особенно в случае потенциально смертельного, но легко поддающегося лечению заболевания. Однако ошибочная классификация человека в качестве больного, тогда как на самом деле он здоров, тоже может иметь нежелательные последствия. Например, ошибочные подозрения на такие серьезные заболевания, как СПИД или рак, способны вызвать психологические проблемы, даже если впоследствии подозрение будет снято. Кроме того, это влечет ненужные затраты на проведение более точного обследования. Герд Гигеренцер, эксперт в вопросах искажения восприятия случайности и статистики, приводит пример с программами скрининга рака молочной железы. Он отмечает, что из 1000 женщин, которые принимают участие в таких программах, около сотни ошибочно направляются на дальнейшее обследование, подвергаясь инвазивным, неприятным, а порой и болезненным процедурам. И даже для многих из тех, у кого рак молочной железы все-таки обнаруживается, ситуация становится только хуже. Как полагает Гигеренцер, «женщины, имеющие непрогрессирующий или прогрессирующий очень медленно рак молочной железы, который они сами даже не заметили бы в течение жизни, часто подвергаются лампэктомии, мастэктомии, токсичной химиотерапии и прочим вмешательствам, которые не приносят им никакой пользы». Порой кажется, что лучше бы темные данные так и оставались темными.

Оценка эффективности программ скрининга осложняется фактом развития общества. Мы уже видели, как сказалось на росте числа случаев болезни Альцгеймера то, что люди стали дольше жить и диагнозы этого заболевания перестали быть темными данными из разряда «что могло бы случиться, если бы вы жили дольше» и перешли в категорию «что на самом деле случилось с вами».

Скрининговые программы также чувствительны к такому тонкому проявлению темных данных, как систематическая ошибка различия длительности течения заболевания. Давайте проиллюстрируем этот эффект на примере гипотетической ситуации.

Предположим, есть две болезни: одна длится один день, а другая — один год, в течение которого инфицированные люди живут нормальной жизнью, но в конце каждого из этих периодов они умирают. Для простоты предположим также, что ежедневно каждой болезнью заражается один человек. Если мы хотим узнать, сколько людей страдает от этих заболеваний, самым простым (и неправильным!) способом будет взять один день и посмотреть статистику по нему. Мы обнаружим лишь одного человека с краткосрочной болезнью — человека, зараженного в этот самый день, но тех, кто болен продолжительным заболеванием, будет 365 человек — по числу дней в году, на протяжении которого они заражались. На первый взгляд это будет выглядеть так, словно от продолжительного заболевания страдает в 365 раз больше людей, чем от краткосрочного. Чтобы увидеть реальную ситуацию, нам будет не хватать 364 человек, заразившихся краткосрочной болезнью в течение предыдущего года.

Этот пример может показаться надуманным, но на самом деле при скрининге рака иногда происходит нечто подобное. Медленно развивающиеся раковые опухоли имеют более длинную бессимптомную фазу и не влияют на выживаемость организма более продолжительный период времени. Исследование, которое мы описали выше, выявило бы больше людей с медленно развивающимся раком, чем с быстро развивающимся. Это привело бы к ложному представлению о том, насколько эти два вида рака поражают людей в популяции.

Мы рассмотрели скрининговые программы на примере медицины, где проверяется, болен или не болен человек, но та же формальная структура описывает и многие другие ситуации. Ранее в книге я приводил пример кредитного скоринга с целью классификации людей в зависимости от вероятности того, будут они погашать кредит или нет. Подбор персонала — еще одна сфера применения скрининга. Заявки подает множество кандидатов, которые отсеиваются после первичного изучения биографических данных и заполненных анкет. Кандидаты из короткого списка приглашаются на собеседование. Первичное изучение выполняет ту же роль, что и инструмент скрининга. Кандидатов, попавших на собеседование, но не прошедших его, можно рассматривать как ложноположительные результаты — они казались подходящими на основании резюме, а более глубокий анализ показал, что это не так. Но нельзя забывать и о тех кандидатах среди отсеянных до собеседования, которые подошли бы идеально. В медицине такие результаты называются ложноотрицательными, и, конечно, все это тоже темные данные.

Выбор на основе прошлого

Мы обращаемся в курьерскую службу на основании того, что раньше она была самой быстрой. Мы выбираем модель автомобиля, потому что до сегодняшнего дня она была самой безопасной. Мы идем в ресторан, где когда-то нас по-настоящему впечатлила кухня. Вполне логично прогнозировать будущие результаты на основе прошлых. Да и другого способа зачастую у нас просто нет. Но, к сожалению, прошлое может быть очень ненадежным путеводителем по будущему. Звучит банально, но все действительно меняется: организации приходят в упадок, производители автомобилей обновляют модельный ряд, а рестораны меняют своих владельцев. Более того, показатели могут ухудшиться, даже если ничего не изменится. И это не просто какая-то слабая вероятность — на самом деле мы должны ожидать такого ухудшения.

Странный феномен, заставляющий нас ожидать того, что хорошие показатели должны ухудшиться, а плохие улучшиться, даже если процесс остался неизменным, называется возвратом к среднему. Это проявление темных данных DD-тип 3: выборочные факты. Как только вы осознаете существование этого явления, вы начнете замечать его на каждом шагу. Давайте разберем на примере.

В 1970 и 1973 гг. в 12 сельхозугодьях Великобритании была зарегистрирована урожайность пшеницы в килограммах. В табл. 5 показано, увеличивалась или уменьшалась урожайность за эти годы. Мы видим, что из шести участков с самой низкой урожайностью в 1970 г. пять имели наибольшую урожайность в 1973 г. И наоборот, из шести участков с самой высокой урожайностью в 1970 г. пять показали снижение в 1973 г. Закономерность очевидна, и вот что она означает: если бы в 1970 г. мы выбрали участки с высокой урожайностью, ожидая от них аналогичных результатов в 1973 г., мы были бы разочарованы.

Чтобы понять, откуда берется такая закономерность, предположим, что у нас есть условная группа студентов с одинаковыми способностями и трудолюбием. Несмотря на это, каждый раз по результатам тестирования одни добиваются больших успехов, чем другие. Это обусловлено изменчивостью сопутствующих обстоятельств — хорошо ли человек спал прошлой ночью, не была ли его голова занята чем-то посторонним, верно ли он представлял себе содержание теста и т.д. Да, мы можем оценить студентов в соответствии с результатами теста и тех, кто набрал больше баллов, отнести к лучшим. Но какие сюрпризы нам может преподнести следующий тест?

Поскольку у всех наших студентов одинаковые способности, то набравшие больше баллов в первом тесте добились этого благодаря удачному стечению обстоятельств. Эти обстоятельства, равно как и другие, которые сопутствовали менее успешным студентам, вряд ли повторятся. Поэтому, скорее всего, студенты с самыми высокими показателями справятся хуже со следующим тестом, а студенты с самыми низкими показателями вполне могут выглядеть лучше.

Проблема кроется в том, что результаты первого теста, то есть исторические данные, показывают нам не сами способности ученика, а их комбинацию со случайными факторами. Случайность как бы скрывает от нас истинные способности.

Конечно, в реальности мы вряд ли найдем группу студентов с одинаковыми способностями и трудолюбием. Каждый из них будет отличаться уникальным набором качеств. Но даже в этом случае всегда будет вероятность, что те студенты, которые отличились во время первого теста, проявят себя хуже при прохождении второго, поскольку как минимум некоторые из лучших результатов первого теста могли быть банальной удачей. Отсюда следует, что, отобрав наиболее успешных студентов, например, на работу в компанию или на дипломный проект, в будущем мы можем столкнуться с тем, что их успеваемость не столь хороша.

Какой практический смысл есть в этом примере? Означает ли он, что мы должны избегать тех, кто добился лучших результатов? Ответ, как правило, отрицательный, поскольку в будущем они все еще могут преуспеть, просто не в той степени, какую можно было бы ожидать на основе исторических данных. В целом степень ухудшения показателей лучших студентов (или улучшения показателей отстающих) зависит от соотношения величины случайного аспекта измерения и реальных способностей. Если диапазон неопределенности, возникающей из-за случайных аспектов, достаточно велик по сравнению с диапазоном способностей, то эффект будет ярко выраженным. Обратите внимание, что степень неопределенности нам неизвестна — все, чем мы располагаем, это сочетание неопределенности и способностей. По этой причине и неопределенность, и способности являются темными данными.

Сам термин «возврат к среднему» был введен блестящим эрудитом викторианской эпохи Фрэнсисом Гальтоном. Он заметил, что (в среднем) дети высоких людей хотя и оказывались выше среднего роста, но при этом не были настолько же высокими, как их родители, а дети, рожденные невысокими людьми, хотя и были ниже среднего роста, но все-таки превосходили своих родителей в росте.

В этой главе мы рассмотрели некоторые пути, которыми темные данные вводят нас в заблуждение, если мы недостаточно внимательны или не вполне понимаем то, что собираемся выяснить. Следующая глава посвящена тому, как мы попадаемся на удочку, даже если точно понимаем, что именно мы хотим узнать.

Назад: ГЛАВА 2. Обнаружение темных данных. Что мы собираем, а что нет

Дальше: ГЛАВА 4. Непреднамеренные темные данные. Видим одно, регистрируем другое