Подытожим

Книга: Много цифр. Анализ больших данных при помощи Excel

Дальше: 10. Переходим от таблиц к программированию

Между главой о модулярности графа и данной главой про определение выбросов вы столкнулись с мощью анализа данных на графе, то есть с соотнесением расстояний и ребер между наблюдениями.

В отличие от глав про кластеризацию, где группы изучались на предмет наличия общего признака, здесь данные исследовались на предмет точек, находящихся вне групп. Вы были свидетелями простой силы степени полузахода, демонстрирующей, кто влиятелен, а кто изолирован.

Больше информации об определении выбросов можно найти в обзоре SIAM 2010, скомпилированном Кригелем, Крогером и Зимеком, по адресу конференции SIAM http://www.siam.org/meetings/sdm10/tutorial3.pdf. Там показаны все техники из этой главы, а также несколько других.

Обратите внимание, что эти модели, в отличие от других, не требуют никакого изнурительного процесса. Для получения ФЛВ существует конечное количество шагов, так что их довольно просто программировать для промышленных нужд вместе с базами данных.

Если вы ищете подходящий язык программирования для этих целей – R отлично подойдет. Функция bplot строит ящичковые диаграммы данных со встроенными границами Тьюки. Способность отображать последние графически в Excel так ужасна, что я даже не буду пробовать описать ее в этой книге.

Пакет DmwR для R (который сопровождает чудесную книгу Торго Data Mining with R [Chapman and Hall, 2010]) содержит ФЛВ в функции под названием lofactor. Для построения и анализа степени вершин на графе также есть отличный пакет для R – igraph.

Назад: Ни в чем не ужасен, плох во всем

Дальше: 10. Переходим от таблиц к программированию