Книга: Много цифр. Анализ больших данных при помощи Excel
Назад: 9. Определение выбросов: выделяющиеся не значит важные
Дальше: Захватывающее дело Хадлум против Хадлум

Выбросы тоже (плохие?) люди!

Представьте момент, когда после подозрительной транзакции вам звонит компания, выпустившая вашу кредитную карту. Что именно она делает? Она определяет эту транзакцию как выброс, основываясь на вашем поведении в прошлом. И вместо игнорирования транзакции как выброса, она помечает ее как потенциально мошенническую и начинает действовать соответственно.
В MailChimp, при определении спамеров еще до отправки спама, мы предсказываем выбросы. Эти спамеры – небольшая группа людей, чье поведение лежит за пределами того, что мы как компания считаем нормальным. Мы используем контролируемые модели вроде той, что рассматривалась в главах 6 и 7, чтобы предсказать, основываясь на последних событиях, когда новый пользователь собирается отправить спам.
Поэтому в случае MailChimp выброс – это не более чем маленький, но оформленный класс данных в общем наборе, который можно предсказать с помощью обучающей последовательности. Но как быть, когда вы сами не знаете, что искать – как в случае с ценниками на поливитамины? Мошенники часто меняют линию поведения; единственное, чего вы можете ожидать от них – это неожиданности. Но если этого раньше никогда не происходило, как найти подобные «выбивающиеся» точки в первый раз?
Такой способ определения выбросов является примером неконтролируемого обучения и добычи данных. Это интуитивная изнанка анализа, который мы выполняли в главах 2 и 5, когда определяли кластеры данных. В кластерном анализе вас интересуют группы друзей по точкам данных и анализ этих групп. При определении выбросов вам важны точки, которые отличаются от групповых. Они выделяются, являясь в некотором роде исключениями.
Эта глава начнется с простого, стандартного расчета выбросов в нормальных одномерных данных. Затем мы перейдем к графу k ближайших соседей, чтобы определить выбросы в многомерных данных, как мы это делали на графах r-окрестности для создания кластеров в главе 5.
Назад: 9. Определение выбросов: выделяющиеся не значит важные
Дальше: Захватывающее дело Хадлум против Хадлум

БУРГЕР КИНГ
Я не робот!
Антон
Перезвоните мне пожалуйста по номеру. 8 (953) 367-35-45 Антон
Антон
Перезвоните мне пожалуйста 8 (495) 248-01-88 Антон.