9. Определение выбросов: выделяющиеся не значит важные
Выбросы – точки, сильно выбивающиеся из последовательности, не вписывающиеся в модель по какой-либо причине. Вы можете помнить их из школьного курса математики – это экстремумы, величины, слишком большие или слишком маленькие, чтобы быть результатом одного и того же процесса, что и остальные наблюдения из ряда данных.
Единственная причина, по которой люди озаботились выбросами – это желание избавиться от них. Эти выбросы «достали» тем, что оттягивают на себя средние значения и сдвигают распределение данных. Статистики, работавшие сто лет назад, имели много общего с Боргом: по их мнению, точка в последовательности должна была ассимилироваться или умереть. Хороший пример удаления выбросов – гимнастика, где наибольшие и наименьшие оценки судей всегда удаляются перед вычислением среднего балла.
Выбросы проявляют себя во всей красе в запутывании моделей машинного обучения. К примеру, в главах 6 и 7 вы наблюдали процессы выявления беременных покупателей на основании данных об их покупках. А что, если бы в магазине перепутали ценники и система регистрировала бы покупаемые поливитамины как фолиевую кислоту? Покупатели с такими ошибочными векторами покупок – это выбросы, которые сдвигают отношение беременных к «не-беременным» в данных о покупке фолиевой кислоты и мешают модели понять поведение покупателей.
Однажды, когда я консультировал правительственные структуры, моя компания обнаружила в Дубае водохранилище, принадлежащее США, которое оценивалось в несколько миллиардов долларов. Стоимость его была выбросом, оттягивающим результаты нашего анализа, но оказалось, что кто-то вбил его в базу с кучей лишних нулей.
Поэтому первая причина обращать внимание на выбросы – это обеспечение чистоты анализа данных и моделирования.
Но есть и другая. Они интересны сами по себе!