Книга: Темные данные: Практическое руководство по принятию правильных решений в мире недостающих данных

Назад: ГЛАВА 7. Наука и темные данные. Природа познания

Дальше: ГЛАВА 9. Полезные темные данные. Переосмысление вопроса

Освещение и использование темных данных

Глава 8

Принцип работы с темными данными

Проливаем свет

Надежда!

Мы убедились, что темные данные могут возникать по многим причинам. Даже если мы допускаем возможность ошибочности наших данных, то можем просто не осознавать, что видим далеко не все. Мы также убедились, что подобное неведение чревато очень серьезными последствиями: от финансовых крахов до гибели людей. Картина не самая радужная.

Так что же делать? В этой главе рассматриваются способы, с помощью которых мы можем заглянуть в тень и понять, что в ней скрыто, а также методы смягчения проблем, даже для тех случаев, когда нет возможности точно определить, что именно пошло не так. Далее мы познакомимся с идеями, инструментами и стратегиями, которые были разработаны специально, чтобы помочь нам получить правильные ответы, даже когда вокруг туман неопределенности. Основная часть главы посвящена ситуациям с отсутствием данных (например, DD-тип 1: данные, о которых мы знаем, что они отсутствуют, DD-тип 2: данные, о которых мы не знаем, что они отсутствуют, DD-тип 3: выборочные факты, DD-тип 4: самоотбор), а в конце мы кратко обсудим данные, которые можно наблюдать, но которые все равно могут вводить нас в заблуждение (например, DD-тип 10: ошибки измерения и неопределенность, DD-тип 9: обобщение данных, DD-тип 7: данные, меняющиеся со временем). Независимо от причины возникновения проблемы принципиальным условием ее решения является бдительность: осознание того, что именно может пойти не так. Это особенно актуально для ситуаций, когда сами данные не могут вам подсказать, что произошло нечто неблагоприятное (например, DD-тип 15: экстраполяция за пределы ваших данных, DD-тип 12: информационная асимметрия, DD-тип 8: неверно определяемые данные). Надеюсь, что множество примеров и список DD-типов, приведенный в этой книге, помогут вам сохранять это состояние бдительности, поскольку теперь вы знаете как минимум некоторые вещи, за которыми нужен глаз да глаз.

Но, прежде чем мы углубимся в детали, необходимо подчеркнуть один крайне важный, фундаментальный момент — появление темных данных указывает на небезупречность. Понятно, что это относится к тем случаям, когда данные оказываются ошибочными, но это применимо и к ситуациям с недостающими данными: само слово «недостающие» говорит о том, что вы надеялись получить больше данных, но что-то пошло не так. Важно понимать, что, хотя методы, которые мы разберем дальше, и помогают смягчить проблемы, возникающие из-за неправильных и неполных данных, лучше всего сразу постараться, чтобы данные были правильными и полными. Иначе говоря, необходимо сделать все возможное, как при разработке стратегии сбора данных, так и в процессе их фактического сбора, чтобы избежать ошибок и неполноты.

Легко сказать. А что, если это просто невозможно?

Связываем наблюдаемые и недостающие данные

Если наша стратегия сбора данных не принесла успеха и их набор оказался неполным, то ключевым фактором в борьбе с темными данными становится понимание того, почему эти данные отсутствуют. В частности, нам необходимо изучить взаимосвязь между имеющимися данными и отсутствием каких-либо элементов. Если повезет, это даст некоторое представление о том, какие значения могли бы иметь недостающие элементы, что, в свою очередь, позволит компенсировать отсутствующие данные.

В качестве отправной точки для такого подхода полезно использовать классификацию, предложенную американским статистиком Дональдом Рубином в 1970-х гг. Она различает три типа взаимосвязей между наблюдаемыми и недостающими данными. Начнем с примера.

Индекс массы тела, или ИМТ, является стандартным показателем массы тканей человеческого организма. Он используется для классификации людей по следующим категориям: «недостаточный вес», «нормальный вес», «избыточный вес» и «ожирение» — и определяется как масса тела человека в килограммах, деленная на квадрат его роста в метрах. Человек попадает в категорию «избыточный вес», если его ИМТ равен или больше 25, а если это значение равно или превышает 30 — то в категорию «ожирение». Данные свидетельствуют о том, что по сравнению с людьми с нормальным весом люди с ожирением имеют повышенный риск развития диабета 2-го типа, ишемической болезни сердца, инсульта, остеоартрита, некоторых форм рака, депрессии и множества других болезней. По этой причине и существует значительный интерес к диетам для похудения.

При изучении одной такой диеты наблюдения проводились с недельными интервалами в течение шестимесячного периода, чтобы увидеть, улучшилась за это время ситуация и насколько. Наблюдения включали взвешивания, измерения толщины кожных складок и расчет ИМТ, но мы сосредоточимся на последнем показателе.

К сожалению, некоторые из участников вышли из исследования в течение этих шести месяцев, поэтому для них нет окончательного результата. Вопрос в том, можем ли мы игнорировать эти темные данные и просто анализировать те ряды, где есть как начальные, так и конечные значения? В главе 2 мы рассматривали проблемы, которые влечет за собой выпадение участников из исследования, и, учитывая, что вы дочитали книгу до этого места, ваш ответ, скорее всего, будет отрицательным. Мы не можем просто игнорировать выбывание участников и вот почему.

Некоторые из тех, кто сидел на диете, выпали из исследования, потому что не смогли придерживаться разработанной программы питания — им было стыдно и они не могли вернуться. Другие, особенно те, у кого превышение нормы не было чрезмерным, обнаружили, что худеют слишком медленно, начали терять мотивацию и тоже выбыли. Третьи покинули исследование по причинам, не связанным с похудением, — кто-то переехал, сменив работу, а кто-то просто был слишком занят, чтобы посещать клинику, где проводились измерения.

Для первой из этих трех категорий существует четкая связь между вероятностью выпадения и ИМТ, который был бы зарегистрирован, если бы они остались в исследовании. То, что они не придерживались программы питания, означало, что эти люди как минимум худели намного медленнее, чем следовало, а возможно, даже набирали вес. Рубин назвал подобные ситуации, в которых вероятность отсутствия данных связана с их значениями, которые мы имели бы, если бы вели наблюдение, «неигнорируемо потерянными» наблюдениями (иногда их еще называют «содержательно потерянными»). Очевидно, что с такой ситуацией непросто справиться, потому что темные данные будут отличаться от наблюдаемых данных тех, кто остался в исследовании.

Для второго типа выбывших, тех, кто не имел заметного избыточного веса и потерял мотивацию, существовала связь между вероятностью их выпадения и тем, что было измерено — начальным ИМТ. Хотя мы не знаем окончательное значение ИМТ этих людей, ясно, что их выпадение связано с тем, что мы уже измерили. Рубин назвал это «случайно потерянными» наблюдениями. Суть подобных ситуаций в том, что мы располагаем признаками того, что дела идут или могут пойти не так.

Наконец, третья категория состоит из людей, у которых причина выбывания не имела отношения к исследованию. Для таких людей измерения (ни сделанные до их ухода, ни те, которые могли бы быть проведены, останься они в группе) не имеют никакого отношения к их выпадению. Рубин назвал эту категорию «абсолютно случайно потерянными» наблюдениями.

Для людей, далеких от статистики, терминологию Рубина, вероятно, будет сложно запомнить, поэтому я переименую эти три типа механизмов появления недостающих данных.

Я обозначу неигнорируемо потерянные наблюдения как зависимые от невидимых данных, или UDD (Unseen Data Dependent) для краткости. Вероятность отсутствия наблюдений в этом случае зависит от значений, которые еще неизвестны. В нашем примере вероятность ненаблюдения окончательного значения ИМТ зависит от того, насколько оно высокое: люди с более высокими значениями с меньшей вероятностью захотят его измерить.
Я обозначу случайно потерянные наблюдения как зависимые от видимых данных, или SDD (Seen Data Dependent) для краткости. Здесь вероятность невозможности наблюдения зависит от данных, которые уже наблюдались. В нашем примере вероятность того, что итоговое значение ИМТ не будет наблюдаться для этой категории, зависит от исходного значения ИМТ, при этом люди с низкими значениями могут выпасть с большей вероятностью.
Я обозначу абсолютно случайно потерянные наблюдения как независящие от данных, или NDD (Not Data Dependent) для краткости. В этом случае вероятность отсутствия наблюдения никак не зависит от данных, имеющихся или нет. В нашем примере вероятность отсутствия итогового значения ИМТ не связана с другими значениями — ни с теми, которые были нами уже получены, ни с теми, которые мы могли бы получить, если бы наблюдения состоялись.

Заслуга Рубина, выделившего эти категории, становится очевидной, когда мы начинаем задумываться о том, как скорректировать недостающие данные. Последний тип механизма появления недостающих данных — самый простой, поэтому начнем с него.

В идеальном мире измерены были бы все — и в начале шестимесячного периода, и в конце, но наш мир не идеален. Поэтому и возникает вопрос, на который нам нужно ответить: как отсутствие результатов тех, кто выпал из исследования, исказит его выводы? Выпадения в группе NDD произошли по причинам, не связанным с исследованием. Нет никаких оснований считать, что эти выпавшие данные могли иметь нечто общее, отличающее их от данных тех, кто остался в группе. По сути, это как если бы мы с самого начала просто взяли меньшую выборку. В среднем эти неизмеренные значения не повлияют на результаты анализа, поэтому мы можем смело их игнорировать. NDD — самая простая ситуация и, вероятно, самая редкая. В этом случае темные данные вообще не имеют значения.

Но если бы все было так просто!

Второй класс Рубина — SDD — уже более коварный. Отказ этих людей от участия в исследовании зависит от начального значения их ИМТ, уже измеренного и вполне видимого. В частности, те, у кого это начальное значение низкое, чаще выпадают и не доходят до этапа регистрации финального значения, тогда как те, у кого начальный ИМТ более высокий, меньше склонны к выбыванию.

Здесь важно отметить, что такой тип отсутствия данных не искажает наблюдаемую взаимосвязь между начальным и конечным значениями ИМТ. Для любого известного начального значения может не быть значения конечного, потому что некоторые участники покидают исследование, но те, которые остаются в нем, будут надлежащим образом представлять распределение окончательных значений ИМТ для людей с похожим начальным значением. Другими словами, мы можем оценить взаимосвязь между начальными и конечными значениями, используя только имеющиеся данные: это не исказит нашего представления о соотношении. Затем мы можем использовать это расчетное соотношение, чтобы, в свою очередь, дать оценки конечных значений ИМТ для любого начального значения.

Наконец, у нас есть первый класс Рубина — случаи UDD. Эти случаи по-настоящему сложные. Данные отсутствуют из-за значений ИМТ, которые мы могли бы узнать, но которых, конечно, не знаем. Они не выпали случайным образом, не стали следствием других наблюдаемых значений. Единственный способ оценить такие данные — получить информацию откуда-то еще или предположить самому, почему именно эти значения отсутствуют.

Вот еще один пример.

Специалист по социальной статистике Кэти Марш описала набор данных, собранных в 1980 г. путем случайной выборки, в которую вошли 200 британских супружеских пар. Мы используем эту выборку для оценки среднего возраста замужних женщин в Великобритании в то время. Беглый взгляд на данные Кэти Марш показывает, что имеются недостающие значения, а возраст некоторых жен не зафиксирован. Вопрос заключается в том, влияют ли эти темные данные на подход к анализу и делают ли они недействительными выводы, к которым мы можем прийти? Как и в примере с ИМТ, ответ зависит от того, по какой причине данные отсутствуют.

Ненаблюдаемые значения возраста жен могут принадлежать категории NDD и не быть связаны с другими значениями данных в исследовании, известными и неизвестными.

Ненаблюдаемые значения могут также принадлежать категории SDD и зависеть от других значений, которые мы уже имеем. Предположим для упрощения, что решение жены о том, следует ли ей называть свой возраст, зависит исключительно от возраста ее мужа, а от значений прочих переменных не зависит. Так, жены, мужья которых старше их самих, могут вдвое реже сообщать свой возраст, чем жены, чьи мужья младше. Предположим также, что мы всегда знаем возраст мужа.

Наконец, ненаблюдаемые значения могут быть из категории UDD, и отсутствие возраста жен будет зависеть от самого этого возраста. Это вполне резонно: еще не так давно в западном мире считалось неприличным спрашивать даму о ее возрасте, а если вопрос все же задавался, то отвечали на него крайне неохотно. Вот отрывок из рассказа «Сват» британского писателя Саки, опубликованного в книге «Хроники Кловиса» (The Chronicles of Clovis) в 1911 г.:

«Кризис наступил, — ответил Кловис, — когда она внезапно двинула теорию, что негоже ей по ночам сидеть дома одной, и потребовала, чтобы к часу я всегда возвращался. Только представь себе! А ведь мне восемнадцать, по крайней мере было в мой последний день рождения».

«В твои последние два дня рождения, если уж быть математически точным».

«Ну, это не моя вина. Я не собираюсь становиться 19-летним, поскольку моей матери должно быть 37 и не больше. Возраст все-таки влияет на внешний вид».

Эта условность может объяснить недостающие значения: возможно, пожилые женщины были менее склонны отвечать на вопрос о возрасте.

Наши действия в первом случае просты, как и сама категория NDD. Поскольку недостающие наблюдения не связаны с какими-либо фактическими значениями данных, мы можем игнорировать любые пары, для которых отсутствует возраст жены, и оценить средний возраст жен в Великобритании по другим имеющимся парам. Это означает, что выборка станет несколько меньше, чем те 200 пар, на которые мы рассчитывали, но само по себе это не вносит каких-либо смещений или системных искажений в оценку. Конечно, если будет отсутствовать слишком много значений и размер выборки значительно уменьшится, то повысится недостоверность наших выводов, но это уже другой вопрос.

А что насчет категории SDD? Вероятность того, что жена скажет, сколько ей лет, зависит от возраста ее мужа, поэтому мы можем получить искаженную выборку возрастов жен. Например, мы можем обнаружить, что значения возрастов пожилых жен, которые, как правило, состоят в браке с мужьями старше их, будут представлены недостаточно. Если игнорировать такую вероятность, то мы занизим средний возраст жен.

Ситуация сама показывает нам, как справиться с проблемой. Хотя для мужей любого конкретного возраста не все жены могут сказать, сколько им лет, те, кто сообщает это, являются просто случайной выборкой всех жен для мужей этого возраста (напомню, мы предположили, что их желание отвечать не зависит ни от чего другого, кроме как от возраста мужа). Это означает, что средний возраст тех жен, которые сообщили его, можно использовать как оценку среднего возраста всех жен для мужей этого возраста. Кроме того, это означает, что мы можем изучать соотношения возраста мужа и возраста жены, используя только те возрастные пары, которые у нас есть. И после того, как мы оценим эти соотношения, можно использовать их для получения ожидаемого возраста всех жен для мужей конкретных возрастов. Теперь не составит труда оценить общий средний возраст всех жен: мы просто вычисляем среднее значение, используя возраст тех, кто ответил на вопрос, и ожидаемый возраст тех, кто этого не сделал.

Наконец, данные могут относиться к категории UDD. Если отсутствие возраста жены зависит от самого этого возраста (например, если его не указали те из жен, кто старше), то мы снова получаем искаженную выборку возрастов. Но теперь уже нельзя игнорировать неполные пары, как мы делали это в случаях NDD и SDD. Для мужей всех возрастов жены, которые не сообщили свой возраст, оказываются, как правило, старше тех, кто его сообщил, но у нас нет никакой информации о том кто из них кто. Любой анализ без учета такого искажения может содержать серьезные ошибки. В случае с категорией UDD нам нужно искать решение в другом месте.

Первоначально большинство исследований, посвященных тому, как справляться с проблемой недостающих данных, проводились экономистами. Это вполне ожидаемо: экономика является особенно сложной в данном отношении областью, поскольку люди в экономике не просто пассивные объекты для измерения; они реагируют на само проведение измерений и, возможно, даже отказываются от них. В частности, они могут отказываться отвечать на вопросы в зависимости от ответов, которые предстоит дать.

Важность темных данных в экономике иллюстрируется тем фактом, что в 2000 г. американский экономист Джеймс Хекман был удостоен Нобелевской премии «за разработку теории и методов анализа селективных выборок», которой он занимался в 1970-х гг. Понятие «селективные выборки» — это еще один способ показать, что у вас не хватает данных, а есть только отдельные выборки, сделанные из имеющихся значений. Подход Хекмана известен как «двухшаговый метод». Он заключается в том, что при обработке данных SDD сначала создается модель, в которой намеренно отсутствуют некоторые данные, а затем она используется для корректировки общей модели — аналогично тому, как это было в примере с Кэти Марш. Самого Хекмана интересовали такие вещи, как продолжительность рабочего дня и рыночная заработная плата. Пример, который он использовал, стал уже классическим: значение заработной платы, которую получает женщина, связанное с другими переменными, но отсутствующее, если женщина увольняется (все то же самое относится и к мужчинам!).

Мы уже сталкивались с экономическими примерами, особенно из категории SDD, когда в главе 2 рассматривали финансовые показатели. Например, индекс Dow Jones Industrial Average представляет собой сумму цен акций 30 крупнейших публичных компаний США, разделенную на поправочный коэффициент Доу. Но компании приходят и уходят — состав индекса Dow Jones менялся более 50 раз с момента его запуска в 1896 г. В частности, компании могут быть исключены из индекса, если начинают испытывать финансовые трудности или в силу изменений в экономике. Это означает, что индекс отражает результаты только тех компаний, которые достаточно успешны. Но признаки ухудшения результатов или экономических изменений должны предшествовать решению об исключении компании из индекса — это данные категории SDD.

Аналогичным образом из-за ухудшившихся результатов компании исключаются из индекса S&P 500 — средневзвешенного индекса акций, куда входят 500 компаний с высокой рыночной капитализацией. Решение о том, какие компании исключить, должно приниматься на основе данных, доступных до исключения (при условии, что это не ретроспективные данные!). Поэтому и здесь данные, описывающие исключенные компании, отсутствуют в расчете индекса и могут быть отнесены к категории SDD.

В качестве последнего примера с финансовыми индексами давайте вспомним, как в главе 2 мы обнаружили, что ошибка выжившего затронула не только индексы Dow Jones и S&P 500, но и индексы хедж-фондов. Например, Barclay Hedge Fund Index основан на среднем арифметическом чистой доходности хедж-фондов, составляющих базу данных Barclay. Но фонды, показатели которых ухудшились до такой степени, что они были закрыты, туда не включаются. Однако, повторюсь, ухудшение показателей должно стать очевидным до того, как фонд будет закрыт, поэтому эти данные также представляют собой категорию SDD.

Определение механизма появления недостающих данных

Классификация по категориям NDD, SDD, UDD очень полезна, поскольку для разных механизмов возникновения недостающих данных требуются разные типы решений. Это означает, что первым делом необходимо определить, к какой категории относится конкретная проблема с отсутствием данных, — если мы ошибемся на этом этапе, наши выводы могут быть неверными. В примере с определением возраста жен мы могли бы сделать неверный вывод, если бы сочли, что вероятность отсутствия значения возраста не зависит ни от возраста самой жены, ни от возраста ее мужа. Аналогичным образом если бы мы полагали, что недостающие данные принадлежат категории SDD, но при этом ошибочно думали, что решение жены назвать свой возраст зависит исключительно от возраста ее мужа, то вновь попали бы в западню неверных выводов. Это вполне естественно, ведь любой анализ включает в себя предположения о том, как возникли данные, и если эти предположения ошибочны, то и выводы, сделанные на их основе, будут такими же. Кроме того, из этого следует, что нужно быть максимально уверенным в своих предположениях и по возможности находить способы их проверки и подтверждения. Для этого существуют различные стратегии, которые мы и рассмотрим далее.

Возможно, основной из таких стратегий является использование собственного опыта в той области, которую описывают данные. Если вы, скажем, исследуете сферу, где люди особенно чувствительны к сообщенным ими данным, то можете предположить, что недостающие значения принадлежат категории UDD. Например, в исследовании, касающемся употребления кокаина, недостающие данные с большей вероятностью будут из категории UDD, чем в исследовании на тему использования общественного транспорта.

В целом можно заключить, что другие исследования на ту же тему или исследования из смежных областей способны пролить свет на причину отсутствия данных. Гарвардский статистик Сяо-Ли Мэн элегантно использовал этот подход, чтобы получить количественную оценку влияния недостающих данных на сделанные выводы. Он разложил степень точности оценки на части, одной из которых была корреляция между отсутствием значения и величиной этого значения. Затем он показал, как в некоторых случаях эта корреляция может быть получена из других источников данных, описывающих сходные проблемы.

Более активная стратегия выяснения причин появления недостающих данных — попытаться собрать некоторые из них. Подробно мы рассмотрим этот метод в следующем разделе.

Иногда для этой цели могут использоваться статистические тесты. Например, мы могли бы разделить мужей на две группы в зависимости от того, указали их жены свой возраст или нет. Разница в моделях распределения возрастов мужей в этих двух группах позволит предположить, что данные не входят в категорию NDD. Американский статистик Родерик Литтл, один из ведущих экспертов в вопросе недостающих данных, разработал общий статистический тест, чтобы определить по нескольким переменным, принадлежат ли такие данные категории NDD. Также есть статистические тесты, позволяющие увидеть, относятся ли данные к категории SDD, но эти тесты чувствительны к предположениям, заложенным в моделях. Это означает, что если ваша базовая модель интерпретации данных неверна, то и выводы будут ошибочными. Опять же, удивляться тут нечему.

Мы убедились, что определение механизма появления недостающих данных, а также той степени, в которой данные отсутствуют по причине своих возможных значений, важно для предотвращения ложных результатов. В некоторых случаях бывает сразу понятно, какой именно механизм задействован, но иногда одновременно действуют два или три механизма. Три разных процесса не являются взаимоисключающими, и то, что некоторые из недостающих данных относятся к категории NDD, не означает, что другие данные не могут отсутствовать по причинам, свойственным категории UDD. Несмотря на это, если мы сможем классифицировать отсутствующие значения, то тем самым встанем на путь преодоления проблемы недостающих данных.

Вооружившись классификацией по трем категориям (UDD/SDD/NDD), мы можем приступить к изучению практических методов работы с темными данными. В следующем разделе мы начнем знакомство с ними с самых простых — и потому не всегда эффективных — методов.

Работа с имеющимися данными

Определение механизма появления недостающих данных дает нам мощное средство решения проблемы. Но оно требует довольно глубокого понимания, поэтому часто используются более простые методы, в том числе и широкодоступные в пакетах статистических программ. К сожалению, «более простые» и «широкодоступные» необязательно означает «эффективные». Давайте рассмотрим некоторые из этих методов и то, как они соотносятся с классификацией UDD/SDD/NDD.

В табл. 6 показана небольшая выборка, иллюстрирующая данные, собранные на начальном этапе исследования диет для похудения. Аббревиатура «Н/Д» означает, что значения ячеек недоступны, поскольку не были зарегистрированы.

Анализ полных наблюдений

Во-первых, мы можем использовать только заполненные без пропусков строки таблицы, то есть такие, которые содержат наблюдения для всех характеристик. Это имеет смысл, если мы полагаем, что темные данные принадлежат категории NDD, и по понятным причинам такой метод часто называют анализом полных наблюдений. Однако если вы внимательно посмотрите на табл. 6, то сразу заметите в чем состоит проблема: даже если темные данные действительно относятся к категории NDD, во всех строках таблицы отсутствует хотя бы одно значение. Если исключить из анализа неполные строки, то у нас вообще не останется данных!

Конечно, это исключительный и, надо признать, искусственный пример, но даже в менее экстремальных случаях такой подход может означать резкое уменьшение размера выборки. Если со спокойной совестью можно делать выводы на основе 1000 наблюдений, то 20 наблюдений из этой тысячи вряд ли можно считать основанием для тех же выводов. Даже если бы данные принадлежали категории NDD и 20 полных наблюдений должным образом представляли генеральную совокупность, дисперсия, возникающая из-за столь малого размера выборки, могла бы заставить нас сомневаться в точности любых выводов.

И, конечно, надо отметить, что если темные данные не принадлежали категории NDD, то даже небольшое уменьшение размера выборки может означать, что мы остались с искаженным набором данных на руках.

Использование всех доступных данных

Вторая столь же нехитрая стратегия — использовать все имеющиеся у нас данные. Например, у нас есть семь строк, содержащих значения возраста, поэтому можно вычислить средний возраст, используя только эти семь значений. Это приемлемо, если недостающие значения возраста не имеют общих признаков, отличающих их от имеющихся данных, то есть если они относятся к категории NDD. Но, если недостающие значения отличаются от собранных, мы можем сделать неправильный вывод. Например, если в табл. 6 эти значения будут указывать на больший возраст, то такой подход приведет к занижению среднего возраста.

Есть еще одно осложнение, которым чреват этот метод. В разных строках отсутствуют значения для разных признаков: где-то это возраст, где-то — рост, масса тела и пол. Это говорит о том, что, используя для анализа все доступные данные, мы получим оценки среднего возраста, роста и тела, основанные на данных разных людей. Если предположить, что, как правило, отсутствуют значения массы тела для тех, кто страдает ее избытком, а значения роста — для низкорослых, то такой подход может создать неправильное впечатление, что население состоит в основном из высоких и тощих людей. Более того, он даже может привести к противоречиям. Например, при изучении связи между парами переменных можно обнаружить, что корреляция возраст / масса тела и корреляция возраст/рост подразумевают корреляцию масса тела/рост, противоречащую прямому вычислению на основе данных о массе тела и росте. Это вызвало бы как минимум недоумение.

Модели недостающих значений

Третья стратегия — группировать записи в соответствии с недостающими характеристиками. Например, мы могли бы проанализировать тех, у кого отсутствуют значения массы тела, отдельно от тех, у кого эти значения есть. В табл. 6 присутствуют пять моделей недостающих значений: случаи, когда отсутствует только масса тела, только возраст, одновременно масса тела и возраст, только пол и только рост. Очевидно, когда размер выборки ограничен 12 наблюдениями, имеется не так много записей, содержащих каждую из моделей (3, 2, 1, 2 и 2 соответственно), но с более крупными выборками мы можем анализировать случаи по каждой модели отдельно. Такой подход применим к любому из трех механизмов появления недостающих данных, но его минус в том, что довольно сложно из выводов, сделанных таким образом, собрать какую-то полезную сводку. Более того, в больших наборах данных, где много измеряемых переменных, может быть огромное число моделей недостающих значений!

Применять этот метод лучше всего в тех случаях, когда значения отсутствуют потому, что их попросту не существует. На примере опроса из главы 2 можно сказать, что это имело бы смысл, если бы значение дохода супруга отсутствовало по причине отсутствия самого супруга. В этом случае мы будем иметь дело с двумя типами респондентов: теми, у которых был супруг (и имелось значение), и теми, у кого супруга не было. Однако все это становится бесполезным, если значение дохода супруга отсутствует потому, что кто-то отказался или забыл его сообщить.

Этот пример также показывает важность использования разных кодов для разных категорий недостающих значений. Аббревиатура «Н/Д» может скрывать под собой любые категории темных данных, и тот факт, что эти данные просто неизвестны, никак не помогает нам использовать их классификацию.

Настойчивость и золотая выборка

В предыдущих главах мы наблюдали несколько ситуаций, когда отсутствовали данные для значительной части населения. Причины могли быть разными: люди отказывались отвечать на вопросы; скрининг выявил, что, вероятно, они не страдают от исследуемой болезни; процесс связывания данных плохо соответствовал используемым базам данных и т.д. Если бы те, кто не предоставил данные, могли быть идентифицированы — например, потому что они удовлетворяли определенным критериям или просто имелся список на основе структуры выборки, показывающий, кто ответил, а кто нет, — тогда стало бы применимой простая стратегия изучения всех (или некоторых) с недостающими данными. Если это сделать хорошо, то проблема может быть решена, независимо от того, какой механизм возникновения недостающих данных был задействован.

На самом деле эта стратегия широко используется при проведении опросов. Она подразумевает согласованные усилия для установления связи с неответившими респондентами. Если речь идет, скажем, о телефонном опросе, то на основании нескольких повторных звонков респонденту можно моделировать взаимосвязь между его характеристиками и числом этих попыток. Затем эту взаимосвязь можно использовать для корректировки результатов, чтобы учесть тех, кого так и не удалось опросить.

Стратегия использования дополнительных данных может принимать очень разные облики. Вот еще один пример, рассмотренный нами ранее.

В главе 2 мы уже познакомились с темными данными в сфере банковского обслуживания физических лиц, с которой мы сталкиваемся почти ежедневно. Вы сами убедились, насколько сложно оказалось построить модели, включавшие бы всех потенциальных заявителей на получение кредита, поскольку имеющиеся данные, как правило, представляли собой искаженную выборку. Например, мы никогда не узнаем, каким был бы исход (погашение/непогашение) для тех, кто подал заявку, но кому кредит предоставлен не был. В розничном банковском обслуживании существует такое понятие, как «анализ отклоненных заявок», которое описывает стратегии, позволяющие сделать выводы о том, какими были бы исходы для этих людей. Такие стратегии противопоставляют «получивших отказ» и «прокредитованных». (В сфере розничного кредитования терминология вообще не отличается особым тактом, достаточно вспомнить «низкокачественных заявителей» или те же «лимоны».) Анализ отклоненных заявок — частный случай более общей стратегии борьбы с недостающими значениями, называемой вменением, которую мы обсудим позже в этой главе.

Нам могут потребоваться выводы из этих ненаблюдаемых исходов по разным причинам. Одна из них состоит в том, чтобы проверить, насколько хорошо работает наш метод отбора, например, не отклоняет ли он кандидатов, которые не допустили бы дефолта. Другая причина — улучшение моделей прогнозирования вероятных исходов для новых кандидатов. В конце концов, если наши модели основаны лишь на той части населения, которой ранее уже были предоставлены кредиты, то они могут оказаться ошибочными применительно ко всей совокупности заявителей. Эта проблема была описана в главе 1.

Чтобы решить проблему неизвестных исходов для тех, кто не получил кредиты, в одном банке, с которым я работал, было введено такое понятие как «золотая выборка». Это была выборка людей, которые должны были получить отказ, поскольку не соответствовали критериям банка для получения кредита. Предполагалось, что они несут высокие риски неплатежей и могут обойтись банку очень дорого (отчего и были названы «золотые»), но тем не менее банк одобрял небольшую случайную выборку из их числа ради той информации, которую мог получить, предоставив кредит. Эта стратегия позволила банку усовершенствовать модель выявления тех, кто, вероятно, допустит дефолт, и принимать более верные решения, кому выдавать кредиты.

К сожалению, не всегда можно увеличить выборку, чтобы восполнить недостающие части генеральной совокупности, но иногда мы можем получить представление о том, как должна выглядеть общая структура распределения по аналогии (скажем, сопоставить распределение по возрасту групп населения в похожих странах) или на основе теоретических аргументов (например, структура распределения срока службы электрических лампочек, исходя из физических принципов, на которых они работают). В таких ситуациях если мы знаем критерии выбора, то можем использовать наблюдаемую часть распределения, чтобы рассчитать общее распределение и, как следствие, его свойства, например, среднее значение. Следующий раздел иллюстрирует эту важную мысль.

Выход за пределы данных: что, если ты умрешь первым?

Нас часто интересует, сколько времени пройдет, прежде чем произойдет то или иное событие. Например, вам наверняка бывает любопытно, как долго вы будете трудиться на нынешнем месте работы, сколько продлится чей-нибудь брак или как скоро двигатель вашего автомобиля выйдет из строя. В хирургии бывает необходимо снизить артериальное давление пациента с помощью гипотензивного препарата, но при этом врачи знают, что после операции артериальное давление должно нормализоваться как можно скорее. Следовательно, важно понимать, сколько времени займет операция и получится ли вернуть артериальное давление к нормальному уровню сразу по ее завершении. В более общем плане, что касается здравоохранения, нас могут интересовать такие вещи, как продолжительность жизни конкретного пациента, время, спустя которое болезнь может возобновиться, или срок, после которого конкретный орган может перестать функционировать.

Проблемы такого типа относятся к анализу выживания. Они имеют давнюю историю, особенно в области медицины и в сфере страхования, где с ними работают актуарии, строя таблицы продолжительности жизни определенных групп людей и анализируя потенциальный срок службы производственных объектов.

Сложность оценки вероятного времени выживания иллюстрируется на примере пациентов с раком простаты третьей стадии. Эта стадия означает, что имеются свидетельства проникновения раковой опухоли в близлежащие ткани. Чтобы определить, какой из двух методов лечения более эффективно продлевает жизнь, пациентов случайным образом распределяют по двум группам, после чего сравнивают средние интервалы выживания в каждой из них. Однако непременно будут пациенты, которые проживут еще довольно долго — возможно, десятилетия. Это хорошая новость для них, но мы не можем ждать столько времени, чтобы узнать, какой из методов лучше. Таким образом, исследование, скорее всего, будет прекращено до того, как умрут все пациенты. Это означает, что мы не будем знать интервалы выживания тех пациентов, которые остались живы после прекращения исследования, — так появляются недостающие данные. Кроме того, пациенты, умершие в ходе наблюдений, могут умереть по какой-то другой причине. Данные о том, как долго они прожили бы до наступления смерти от рака, также отсутствуют. И, как вы уже можете предположить, есть и третья категория темных данных, связанная с теми, кто выйдет из исследования по причинам с ним не связанным.

Очевидно, что если просто проигнорировать пациентов, реальное время выживания которых нам неизвестно, то мы попадем в ловушку ошибочных выводов. Например, предположим, что один из методов лечения был эффективным настолько, что все, кроме пары пациентов, выжили и продолжили жить после окончания исследования. В этом случае если бы мы игнорировали всех, кроме двух умерших пациентов, то сильно бы недооценили эффективность лечения.

Однако, хотя мы не будем знать продолжительность жизни пациентов, оставшихся в живых после завершения исследования, а также тех, кто умер по другим причинам или добровольно выбыл, нам будет известен тот момент, когда они перестали наблюдаться. Такие временные интервалы называются «цензурированные», они показывают, что период времени между моментом, когда пациенты вошли в исследование и когда они должны были умереть от рака простаты, больше, чем период времени, в течение которого они находились под наблюдением.

В 1958 г. в Journal of the American Statistical Association была опубликована интересная статья, в которой Эдвард Каплан и Пол Мейер показали, как оценить вероятность выживания людей за пределами временного интервала, то есть когда время выживания некоторых из них будет больше, чем время наблюдения . Значимость этой статьи иллюстрируется в докладе Георга Дворского, где, в частности, приводится тот факт, что статья Каплана–Мейера занимает 11-е место в рейтинге наиболее цитируемых научных статей всех времен. Учитывая, что общее число научных статей превышает 50 млн можно сказать, что это немалое достижение.

Иногда нам нужно выйти за рамки простой оценки вероятности выживания людей дольше какого-то периода. Например, когда мы оцениваем средний интервал выживания. Распределения интервалов выживания, как правило, имеют положительное смещение. Это означает, что более длительные интервалы по сравнению со средним значением выживания встречаются реже, чем более короткие, то есть может быть много коротких интервалов и лишь небольшая горстка длинных. Статистики описывают такое распределение как «длинный хвост». Учитывая, что несколько наибольших значений при положительном смещении распределения могут быть намного больше, чем основная масса значений, их отсутствие в анализе способно сильно повлиять на оценку среднего значения. Представьте себе, например, расчет среднедушевого дохода в Соединенных Штатах, исключив из него Билла Гейтса и других миллиардеров. Результат получится намного ниже. Что касается времени выживания, это может означать исключение тех пациентов, которые прожили дольше всех, что, несомненно, существенно исказит любые выводы.

Так что же делать с этой проблемой?

О расширении выборки, на этот раз включающей выбывших из исследования до наступления смерти от рака простаты, не может быть и речи. Мы не сможем, например, включить в выборку тех, кто умер от других причин, чтобы увидеть, через какое время они умерли бы от рака простаты (и снова контрфактуальность!).

Вместо этого нам приходится прибегать к другим методам моделирования распределения тех, за кем мы не можем наблюдать. Обычно предполагают, что общее распределение времени имеет уже известную нам форму. Это предположение может основываться на прошлом опыте и наблюдениях за другими заболеваниями. Для придания наглядности можно привести одно распространенное предположение, которое состоит в том, что интервалы выживания имеют экспоненциальное распределение. Для такого типа положительно смещенных распределений характерно множество маленьких значений и несколько исключительно больших. Выбор конкретной модели этого типа может быть сделан на основе времени наблюдения выживания, а также того факта, что цензурированные интервалы должны быть больше наблюдаемых.

Хотя этот подход приемлем для многих случаев, мы не должны забывать, что в его основе лежит предположение о соответствии экспоненциальному распределению. Поэтому, как и всегда, если предположение сделано неверно, выводы будут искаженными.

Анализ выживания сочетает в себе интервалы выживания тех, чья смерть от изучаемой причины наступила в процессе наблюдений, и очевидный факт, что интервалы выживания остальных были дольше, чем этот процесс. Если бы мы могли оценить интервалы выживания этих остальных, то смогли бы суммировать все интервалы — и наблюдаемые, и оценочные. Это подводит нас к самому общему методу борьбы с недостающими данными — вменению. Ему и посвящен следующий раздел.

Выход за пределы данных: вменение

Пытаясь найти решение проблемы недостающих данных, вполне естественно в какой-то момент прийти к мысли, что можно взять да и заполнить пропуски некими заменителями. Такая стратегия называется вменением. После того, как мы вменяем недостающие значения, данные становятся полными и уже нет смысла беспокоиться о пустых ячейках — можно проводить анализ любым удобным способом. Например, после того как в табл. 6 будут вставлены значения отсутствующих возрастов, мы сможем легко вычислить средний возраст всех 10 человек в выборке. Однако этот метод подозрительно напоминает выдумывание данных, и, если мы не хотим быть обвиненными в мошенничестве, нужно тщательно продумать, как именно это делать. Более того, одно дело, если ненаблюдаемые значения принадлежат к категории NDD, и совсем другое, если они относятся к SDD или, что еще хуже, к UDD. Если недостающие значения принадлежат категории SDD, мы можем связать вмененные значения с теми или иными аспектами наблюдаемых данных. Но если недостающие значения относятся к категории UDD, то имеющиеся данные не смогут подсказать нам, какими должны быть вмененные значения, и непонятно, как в этом случае избежать неверных результатов.

Одна из причин того, что вменение недостающих значений зачастую упрощает анализ, заключается в самой природе многих статистических методов — они основаны на балансе и симметрии данных. Приведу пример. Однажды я консультировал производителя пластиковых автозапчастей, изготовленных методом литья под давлением, который хотел знать, какая комбинация трех факторов — температуры, давления и времени в пресс-форме — будет оптимальной и позволит получить продукт наилучшего качества. Исследованию подлежали два значения температуры, два значения давления и два — времени. (На самом деле этих значений было больше, но здесь я для упрощения возьму по два на каждый фактор и обозначу их как «высокое» и «низкое».) Когда для трех факторов существует по два значения, то в общей сложности мы имеем восемь комбинаций: все три фактора на высоких значениях; первые два на высоком, третий — на низком и т.д. Было выполнено несколько производственных циклов в каждой из этих восьми комбинаций, и каждый производственный цикл давал готовую деталь, качество которой можно было оценить. В подобных экспериментах, если одинаковое количество деталей создается при каждой комбинации трех факторов, то для получения результатов могут использоваться удобные математические формулы. Но анализ становится сложнее, если в результате разных комбинаций получено разное количество деталей. В частности, если изначально экспериментальный дизайн был ориентирован на то, чтобы получить хорошо сбалансированное число наблюдений, одинаковое для каждой комбинации факторов, но некоторые значения выпали (например, по причине отключения электропитания, что помешало осуществить ряд запусков в ходе производственного процесса), то данные становятся несбалансированными. Это может значительно затянуть анализ и потребовать сложных расчетов. Поэтому неудивительно, что идея вменения недостающих значений с целью восстановления баланса данных выглядит очень привлекательно.

Вменение значений полезно, но совершенно очевидно, что если мы повторим анализ с другими вмененными значениями, то получим и другие результаты (где-то здесь бродит призрак выдумывания данных). Поскольку наша мотивация для подстановки значений заключается в том, чтобы упростить вычисления и постараться не искажать результаты, можно попытаться найти такие подставные значения, чтобы простой анализ, основанный на сбалансированных полных данных, давал те же результаты, что и сложные вычисления с использованием неполных данных.

Идея заманчива, и в некоторых ситуациях она действительно реализуема, но вам не кажется, что она напоминает замкнутый круг? Как найти эти столь необходимые нам подставные значения, которые не повлияют на результаты, если не произвести перед этим сложные вычисления? Мы вернемся к этому вопросу позже, когда убедимся, что попытка ответить на него может привести нас к глубокому пониманию того, какие процессы на самом деле происходят в данных. Однако сначала мы подробнее рассмотрим основные подходы к вменению.

Среднее вменение

Одним из самых распространенных подходов является подстановка на место недостающих значений среднего значения, рассчитанного на основе всех имеющихся. Так, мы могли бы заменить три неизвестных значения возраста в табл. 6 на среднее значение семи известных возрастов. Действительно, эта нехитрая стратегия легкодоступна во многих программных пакетах для анализа данных. Но, без сомнения, вы уже приобрели определенный скептицизм в отношении простых стратегий, когда дело касается темных данных, и наверняка пытаетесь понять, что может быть не так с этим подходом. Одну из возможных проблем мы уже обсуждали: если недостающие значения имеют системные отличия от зарегистрированных, то их замена средним значением может ввести нас в заблуждение. Например, если три человека, чей возраст отсутствует, старше, чем остальные семь, будет не слишком хорошей идеей заменить их возраст средним возрастом этих семи. Таким образом, среднее вменение может быть приемлемым, когда отсутствующие данные принадлежат категории NDD, но в остальных случаях оно только усложнит нашу задачу.

К сожалению, со средним вменением связана и другая проблема. Как правило маловероятно, чтобы все недостающие значения, будь они измерены, оказались идентичными. Это означает, что подстановка одного и того же значения на место всех недостающих делает «полные данные» искусственно однородными. Например, проделай мы это для возраста в табл. 6, и дисперсия (мера того, насколько сильно отличаются друг от друга значения) полной выборки по возрасту будет, скорее всего, меньше фактической, когда все возрасты наблюдаются реально.

Перенос вперед данных последнего наблюдения

Недостающие значения в табл. 6, по-видимому, не имеют какой-либо закономерности и отсутствуют случайным образом. В отличие от этого, как мы уже успели убедиться, часто обнаруживается, что люди с течением времени выпадают из исследования, так что каждое такое наблюдение ограничено временем выпадения, после которого все более поздние значения отсутствуют. Хорошей иллюстрацией этого служит рис. 4 в главе 2.

Когда возникает такая модель выпадения, мы можем использовать конкретный метод вменения, называемый «перенос вперед данных последнего наблюдения» (LOCF), суть которого отражена в его названии: пропущенное значение для пациента заменяется последним из зарегистрированных. Такой метод подразумевает, что измеряемые параметры не меняются за время, прошедшее с момента последнего измерения до момента возникновения недостающего значения. Это довольно смелое предположение (с учетом того, что «смелость» иногда служит эвфемизмом для «безрассудства»). И, конечно, встает вопрос о целесообразности такого подхода — ведь, как правило, сама причина повторения наблюдений заключается в том, что мы ожидаем изменений параметров с течением времени.

Неудивительно, что метод LOCF активно подвергается критике.

«Если бы существовал приз за самую неподходящую аналитическую технику при исследовании деменции, то последнее наблюдение, перенесенное вперед было бы вне конкуренции».
«Вся аналитика на базе LOCF имеет сомнительную достоверность, если не сказать, что она явно ложная (может казаться истинной, но фактически является ложной)… LOCF не следует использовать ни в каком анализе».
«Как LOCF, так и подстановка среднего значения ложно увеличивает заявленную точность оценок, поскольку не учитывает неопределенность недостающих данных и обычно дает искаженные результаты».
«Использование LOCF нарушает статистические принципы, и подобные допущения могут быть оправданными лишь изредка».

Такие комментарии обоснованно вызывают сомнения по поводу использования LOCF.

Прогнозирование на основе других переменных

До сих пор мы рассматривали такие несложные методы вменения — среднее значение от наблюдаемых, предыдущее значение для того же объекта или пациента, — что с ними справился бы и ребенок. Однако моделирование взаимосвязи между переменной с недостающим значением и другими переменными, а затем прогнозирование этого недостающего значения на основе значений наблюдаемых уже более сложная стратегия. Модель базируется на анализе полных наблюдений, где все значения присутствуют. Мы уже сталкивались с этой идеей, когда давали определение для категории SDD.

Например, в табл. 6 есть четыре строки, в которых присутствуют и значение возраста, и значение массы тела. Четыре соответствующие точки показаны на графике (рис. 6). Мы могли бы использовать их для построения простой статистической модели, связывающей возраст и массу тела. Прямая линия на рисунке является подходящей моделью, демонстрирующей, что для этих данных более высокие значения возраста связаны с меньшими значениями массы. (Замечу, что не стоит строить модели на выборках размером всего в четыре точки в реальной жизни!) Теперь мы можем использовать эту модель для прогнозирования недостающих значений массы при наличии значений возраста. Например, человеку, описанному в восьмой строке таблицы, 41 год, но значение массы тела для него неизвестно. Линия, которая служит нам моделью, подсказывает, что это значение может составлять около 91 кг.

Можно сказать, что это расширение идеи простого добавления среднего значения наблюдаемых данных с применением более сложной статистической модели, которая использует преимущества другой информации, доступной в таблице. Поскольку задействованы значения возраста, а не только массы тела, стратегия может дать лучшие результаты, чем простое использование среднего. В частности, ее применение целесообразно, если недостающие значения массы тела принадлежат категории SDD, а вероятность их отсутствия зависит только от возраста. Но если недостающие данные относятся к категории UDD, такая модель нам не поможет. Тем не менее нужно отметить, что эта стратегия моделирования и прогнозирования содержит в себе зачатки одной очень продуктивной идеи, к которой мы вернемся позже.

«Горячая колода»

Еще один простой метод вменения, основанный на наблюдаемых значениях, известен под общим названием «горячая колода». Чтобы найти замену отсутствующему значению в неполной записи, требуется сопоставить ее с другими записями, в которых значения имеются. Затем из наиболее подходящих записей случайным образом выбирают одну, значение которой подставляют на место отсутствующего элемента. Например, в табл. 6 неизвестен рост первой женщины. Сравнивая эту строку с другими, мы находим две сходных с ней в том, что они соответствуют женщинам в возрасте 41 и 31 года, что довольно близко к 38 годам — возрасту женщины с неизвестным ростом. После этого мы случайным образом выбираем одну строку, чтобы взять из нее значение роста и подставить в ячейку «Н/Д» для 38-летней женщины. Рост одной женщины составляет 165 см, а другой — 160 см. Если мы выберем, например, 41-летнюю, то вмененное значение будет 165 см.

Этот метод получил свое название в те дни, когда данные хранились на перфокартах, и в прошлом применялся довольно широко. Его привлекательность заключается в простоте, он не требует сложной статистики — всего лишь оценку степени сходства между записями. Однако все зависит от того, как именно вы определяете «сходство». Какие другие переменные вы собираетесь использовать, оценивая сходство? Как вы объединяете их для получения общего показателя? И следует ли считать одни переменные более важными и имеющими больший вес, чем другие?

Множественное вменение

Мы уже видели, что одна из очевидных проблем метода вменения состоит в том, что повторный анализ с использованием различных вмененных значений будет давать разные результаты. Но что если мы можем воспользоваться этим?

Каждый вариант дополненного набора данных представляет собой их вероятную конфигурацию, которая могла бы наблюдаться в реальности. Сводная статистика, рассчитанная на основе такого дополненного набора, также является вероятностным вариантом этой статистики, которая могла быть получена, если бы данные были полными с самого начала. Это означает, что если мы повторим вменение несколько раз, используя разные вмененные значения, то получим распределение значений суммарной статистики, по одному для каждого вероятного полного набора данных. Мы можем оценить различные параметры такого распределения, например неопределенность или дисперсию суммарной статистики. То есть вместо того, чтобы просто получить единственный «наилучший» вариант оценки, мы получаем показатель вероятности того или иного значения.

Эту стратегию повторных вменений принято называть множественным вменением. На сегодня это широко используемый инструмент для решения проблем с отсутствующими данными.

Итерация

Мы познакомились с простыми методами подстановки значений на место недостающих и с более сложными, которые задействуют наблюдаемые переменные, чтобы оценить отсутствующее значение. Идея использования предполагаемой взаимосвязи между наблюдаемыми значениями и недостающими для прогнозирования последних приводит к продуктивной итеративной идее, основанной на принципе максимального правдоподобия.

Для любого определенного набора данных и любой предложенной статистической модели механизма их происхождения мы можем рассчитать вероятность возникновения такого набора данных в соответствии с этой моделью. Принцип максимального правдоподобия гласит, что из двух статистических моделей мы должны предпочесть ту, для которой вероятность генерации этих данных выше. В более общем смысле, если у нас есть несколько, много или даже бесконечное число возможных объяснений происхождения набора данных, согласно принципу максимального правдоподобия мы должны выбрать то, которое с наибольшей вероятностью их породило. Итеративный подход — это метод нахождения такой модели, когда отсутствующие данные принадлежат категориям NDD или SDD.

Мы начинаем с подстановки значений на место недостающих, причем получить их можем как угодно, вплоть до случайных предположений. Затем на основе дополненного таким образом набора данных — где присутствуют и наблюдаемые значения, и вмененные — мы оцениваем соотношения переменных, используя принцип максимального правдоподобия. Далее мы берем эти оценочные соотношения и получаем новые замены для пропущенных значений. Затем мы снова используем дополненные данные с новыми вмененными значениями, чтобы сделать следующий виток оценки взаимосвязей, и т.д., цикл за циклом. При соблюдении определенных общих условий значения замещения меняются с каждым циклом все меньше и меньше, и наконец мы приходим к окончательным оценочным соотношениям переменных — тем, которые и представляют модель максимального правдоподобия.

Эти повторяющиеся циклы — выбор значений для пропущенных элементов и последующее использование дополненных данных для получения оценок взаимосвязей между переменными, что, в свою очередь, дает новые замещающие значения для пропущенных элементов, — являются продуктивной идеей, которую в разной форме выдвигали многие ученые. Три статистика — Артур Демпстер, Нэн Лэрд и Дональд Рубин, с последним из которых мы уже встречались, — в своей основополагающей статье 1977 г. обобщили варианты этой идеи, продемонстрировали их общность и придали им более абстрактную форму, допускающую широкое применение в различных ситуациях. Они назвали свой метод EM-алгоритмом, или алгоритмом максимизации ожиданий. Он включает в себя два шага в каждом цикле: первый шаг — вычисление ожидаемого значения для каждого пропущенного элемента, и второй — оценка соотношений переменных с использованием дополненного набора данных. Второй шаг в каждом цикле называется максимизацией, потому что он максимизирует вероятность.

На самом деле Демпстер, Лэрд и Рубин показали, что нет необходимости заходить так далеко, чтобы найти отсутствующим значениям замену. Все, что необходимо, это смоделировать распределение, из которого, вероятно, пришли недостающие значения. Мы столкнулись с этой концепцией, когда рассматривали анализ выживания. Напомню: мы не пытались оценить интервалы выживания тех, кто остался жив после окончания периода наблюдения, а просто использовали вероятность того, что они будут жить дольше, чем этот период.

EM-алгоритм активизирует эту концепцию. После того, как Демпстер и его коллеги представили абстрактное описание двухэтапного циклического алгоритма, стало очевидно, что фундаментально эта идея уже возникла повсюду и проявлялась порой весьма неожиданно. Кроме того, алгоритм был расширен и дополнен различными методами, например, были разработаны модификации, которые требуют меньшего числа итераций «ожидание — максимизация» до момента, когда заменители пропущенных значений (и соотношения переменных) перестанут изменяться, то есть до того, как процесс приблизится к наилучшей (в смысле максимального правдоподобия) модели.

Абстрактное представление EM-алгоритма также помогло лучшему пониманию проблемы в целом. В главе 1 я упомянул, что любые неизвестные характеристики генеральной совокупности могут рассматриваться как недостающие значения и, следовательно, как темные данные. Это очень плодотворная идея. Такими базовыми характеристиками могут быть и какие-то простые значения (например, средний рост населения), и значения комплексные, включая множественные ненаблюдаемые латентные переменные, которые связаны сложным образом. Классическим примером является траектория движущегося объекта, когда мы не можем наблюдать его точное положение в каждый момент времени, а имеем лишь значения, искаженные ошибкой измерения. Во многих случаях лежащие в основе темные данные являются не просто тем, что не наблюдалось — они по своей сути ненаблюдаемы. Это скрытые, или латентные, переменные (отсюда модели с латентными переменными). Но ненаблюдаемость не означает, что на такие данные нельзя пролить свет — собственно, в этом и состоит основная цель статистических методов. Применение статистических инструментов к данным, сгенерированным в реальности, может кое-что поведать об этой реальности: данные начинают излучать свет и освещают все вокруг.

В этом разделе мы разобрали то, как можно анализировать данные и получить представление о процессах, которые их генерируют, даже если имеются темные данные. Мы рассмотрели целый ряд общих методов: от самых простых способов работы с доступными данными и исключения неполных записей до многообразных методов вменения, которые призваны определить, какими были бы недостающие данные, если бы были измерены. Мы также рассмотрели важную классификацию, описывающую структуру отсутствующих данных, — связаны ли они и как именно с данными, которые наблюдались. Эта классификация состоит из трех категорий — NDD, SDD и UDD — и помогает более глубокому пониманию вопросов борьбы с темными данными. В следующей главе мы изменим тактику и вместо того, чтобы бороться, посмотрим, как можно использовать темные данные. В частности, мы для начала оглянемся назад и посмотрим на некоторые идеи с новой точки зрения. Но прежде скажем несколько слов о данных, которые мы можем видеть, но которые являются обманчивыми.

Неправильное число!

До сих пор в этой главе мы имели дело с недостающими данными. Но мы уже знаем, что данные могут являться темными и по другим причинам, например DD-тип 10: ошибки измерения и неопределенность, DD-тип 9: обобщение данных и DD-тип 7: данные, меняющиеся со временем. Рассмотрение этих типов позволит нам более широко взглянуть на проблему темных данных и поможет исследовать три основных шага в работе с ними, а именно: предотвращение, обнаружение и исправление.

Предотвращение

Ошибки в данных предотвращаются, во-первых, благодаря пониманию того, какие именно ошибки бывают, и, во-вторых, путем создания систем, которые препятствуют их возникновению на этапе сбора данных. Что касается понимания, то оно приходит с опытом — вы или сами совершаете ошибки, или, что куда приятнее, учитесь, глядя, как их совершают другие. (Однажды я услышал, как кто-то из увольнявшихся из компании сказал менеджеру: «Спасибо, что предоставили мне так много возможностей учиться на чужих ошибках».)

Итак, если мы вводим данные непосредственно в базу данных, то по мере их ввода можно осуществлять несложные проверки. Например, если речь идет о дате рождения, то для машины не составит труда проверить, является ли она допустимой. Бдительность не бывает излишней. Я слышал об одном случае, когда набор данных имел странный пик по датам рождения, приходившийся на 11 ноября 1911 г. Как выяснилось, дату рождения требовалось вводить шестью цифрами в формате день/месяц/год и программисты были в курсе, что люди иногда вводят 00/00/00, если не хотят указывать свой день рождения. Поэтому они запрограммировали форму сбора данных таким образом, что, если кто-то вводил шесть нулей, машина отклоняла дату и требовала повторить попытку. Но программисты не учли одного: в этот момент те, кто особенно не хотел «светить» свой день рождения, делали простейшую вещь, которая первой приходит в голову — они вбивали последовательность из шести единиц, что принималось базой данных и выглядело как 11 ноября 1911 г.

Дублирование данных может быть использовано в качестве общей стратегии предотвращения ошибок. Оно подразумевает ввод данных или по крайней мере какой-то их части более чем одним способом. Распространенным методом, особенно при проведении клинических испытаний, является система двойного ввода данных, когда значения переносятся (например, из бумажных форм сбора данных в компьютер) двумя людьми независимо. Вероятность того, что они совершат одну и ту же ошибку в одном и том же месте, ничтожно мала.

Еще можно вводить не только последовательности чисел, но и их суммы. Компьютер складывает введенные числа и сравнивает результат с заявленной суммой. Несовпадение сумм будет означать, что допущена ошибка в одном или нескольких введенных числах (за исключением очень редких случаев, когда две ошибки взаимно компенсируют друг друга). Существуют разные версии этой идеи «контрольной суммы», в том числе и очень мудреные.

Обнаружение

Пример с 11 ноября 1911 г. и использование контрольных сумм для предотвращения ошибок граничат со следующим этапом — обнаружением ошибок. Ошибки в данных могут быть обнаружены, потому что эти данные не согласуются с аналогичными или ожидаемыми данными. Значение 3 м 2 см в базе данных роста людей немедленно вызовет подозрения — нам не известен ни один человек с подобным ростом. Возможно, это ошибка ввода данных и истинное значение — 2 м 3 см (хотя предполагать недостаточно и следует обратиться к источнику данных, если, конечно, есть такая возможность).

Ошибки также могут быть обнаружены при наличии логических несоответствий. Если заявленное количество детей в семье не соответствует числу их возрастов в анкете, значит, что-то не так. Несоответствия могут быть не только логическими, но и статистическими. Рост 1,5 м и вес 150 кг, указанные для одного человека, могут вызвать подозрение в ошибке, хотя по отдельности рост 1,5 м и вес 150 кг встречаются не так уж редко.

Более сложный пример статистического обнаружения странностей встречается в распределении Бенфорда. Первое описание этого распределения (иногда его называют законом Бенфорда), по-видимому, было сделано в 1881 г. американским астрономом Саймоном Ньюкомом. В своей работе он использовал логарифмические таблицы — до появления компьютеров с их помощью перемножали большие числа. Ньюком обратил внимание на тот факт, что первые страницы логарифмических таблиц всегда были замусолены больше, чем последующие. Закон был повторно открыт почти 60 лет спустя физиком Фрэнком Бенфордом, который провел обширное исследование, показавшее, что частое использование более ранних значений по сравнению с более поздними характерно для очень разных числовых таблиц.

Так в чем же состоит закон Бенфорда?

Во-первых, мы должны определить самую значимую цифру числа. Как правило, это первая цифра: наиболее значимой для числа 1965 является цифра 1, а для 6 009 518 432 — цифра 6. В наборе чисел можно ожидать, что наиболее значимые цифры будут встречаться с тем же распределением, что и цифры от 1 до 9. Иначе говоря, вы можете ожидать, что каждая цифра от 1 до 9 будет первой цифрой числа для одной девятой всех чисел набора. Но, что любопытно, во многих полученных наборах чисел цифры от 1 до 9 встречаются в качестве наиболее значимых в разных пропорциях: 1 встречается примерно в 30% случаев, 2 — в 18% и т.д. по убывающей, вплоть до 9, которая служит наиболее значимой цифрой всего для 5% чисел в наборе. Закон Бенфорда посредством точной математической формулы как раз и описывает это распределение.

Существуют веские математические причины, по которым может возникнуть это странно противоречащее нашей интуиции явление, но мы не будем вдаваться в них на страницах этой книги. Для нас важно отметить, что если данные отклоняются от распределения Бенфорда, то это повод проверить, не закралась ли какая-то ошибка. Марк Нигрини, эксперт в области судебной бухгалтерии, разработал инструменты на основе распределения Бенфорда для обнаружения мошенничества в финансовой и бухгалтерской отчетностях. И здесь есть один важный для нас момент. Инструменты для выявления странного поведения данных, возникающего вследствие ошибок, могут быть использованы и для поиска странностей, когда реальные цифры намеренно скрываются, то есть для выявления мошенничества. В главе 6 я упомянул, что правила борьбы с отмыванием денег требуют от регулирующих органов сообщать о выплатах в размере $10 000 или более. Преступники пытаются преодолеть это ограничение, разделяя общую сумму перевода на множество транзакций с чуть меньшим, чем пороговое, значением. Но превышение стандартной доли переводов, сумма которых начинается с цифры 9 (например, $9999), будет отображаться как отклонение от распределения Бенфорда.

Я довольно долго работал с розничными банками, разрабатывая инструменты для выявления потенциальных случаев мошенничества со счетами кредитных карт. Многие из этих инструментов основаны именно на поиске странных значений, которые вполне могут быть ошибками, но порой указывают на мошеннические действия.

Есть еще одно важное замечание по поводу обнаружения ошибок: вы никогда не можете быть уверены, что обнаружили их все. К сожалению, истина заключается в том, что наличие ошибок (иногда) может быть доказано, а вот их отсутствие — нет. Хотя данные могут становиться ошибочными неограниченным количеством способов, число способов, которыми их можно проверить, всегда конечно. Тем не менее к этой ситуации, несомненно применим принцип Парето, и мы можем утверждать, что большинство ошибок будет обнаружено с относительно небольшими усилиями. Однако здесь действует и другой закон — закон убывающей отдачи. Если вы обнаружите 50% ошибок, приложив определенные усилия, то точно такие же усилия, приложенные вновь, смогут обнаружить 50%, но уже от оставшихся ошибок. Такое убывание результата будет сопровождать каждый цикл и означает, что вы никогда не сможете выявить все ошибки.

Исправление

Третий этап в борьбе с темными данными, после предотвращения и обнаружения ошибок, — это их исправление. После того, как вы заметили неверное значение, нужно понять, каким оно должно быть. Методы исправления ошибок — если, конечно, исправление вообще возможно — зависят от того, что вам известно об ожидаемых значениях, и от общего понимания возникающих ошибок. Примеры с неуместными десятичными разделителями в главе 4 иллюстрируют то, как наше общее понимание данных и опыт прошлых ошибок подсказывают, каким должно быть истинное значение. Аналогичный пример: если в таблице зарегистрировано значение скорости велосипедиста 240 км/ч, притом что все другие значения лежат в диапазоне между 8 км/ч и 32 км/ч, логично предположить, что затесался лишний ноль и истинное значение составляет 24 км/ч. Однако не стоит сразу вносить исправления, предположив истину, — необходимо всесторонне проверить свое предположение. Прежде чем исправлять ошибку в последнем примере, нелишне будет узнать, что в сентябре 2018 г. чемпионка мира по велоспорту Дениз Мюллер-Коренек установила рекорд скорости на велосипеде, разогнав его до 296 км/ч. Если не вернуться к исходному источнику или не повторить измерение, мы не сможем быть уверены в том, какое значение должно быть на месте предполагаемого ошибочного, даже если сам факт ошибки не вызывает сомнений.

Последнее общее замечание на тему ошибок в данных, которое я хотел бы сделать, связано с новыми удивительными мирами данных и их пониманием, которые нам открыли и продолжают открывать компьютерные вычисления. Сегодня собираются, хранятся и обрабатываются немыслимые еще недавно, поистине колоссальные массивы данных. Эти базы данных открывают огромные возможности. Но не стоит забывать, что применение компьютеров также подразумевает и некоторую фундаментальную непрозрачность. Хотя они позволяют нам разглядеть в данных то, что мы никогда бы не обнаружили невооруженным глазом, в то же время компьютеры действуют как посредник между нами и данными. Компьютеры могут скрывать от нас какие-то аспекты данных.

Назад: ГЛАВА 7. Наука и темные данные. Природа познания

Дальше: ГЛАВА 9. Полезные темные данные. Переосмысление вопроса