Книга: Много цифр. Анализ больших данных при помощи Excel
Назад: K-медианная кластеризация и асимметрическое измерение расстояний
Дальше: 3. Наивный байесовский классификатор и неописуемая легкость бытия идиотом

Подытожим

В этой главе было описано много разных отличных приемов. Вспомним все, что вы увидели и узнали:
• евклидово расстояние;
• кластеризацию методом k-средних с использованием «Поиска решения» для оптимизации центров;
• как понимать кластеры, раз уж они у вас есть;
• как рассчитать силуэт, данный по k-средним;
• k-медианную кластеризацию;
• манхэттенское расстояние / расстояние городского квартала;
• близость и расстояние по косинусу.
Дочитав главу до конца, вы должны научиться не только кластеризировать данные, но еще и понять, на какие вопросы ведения бизнеса можно ответить с помощью кластеризации, а также как подготовить свои данные к кластеризации.
Кластеризация методом k-средних определенно является стартовой площадкой для всех ищущих сегментации и пытающихся извлечь полезную информацию из данных о покупателях. Но это не самая «общеупотребительная» техника кластеризации. В главе 5 вы познакомитесь с сетевыми графами, помогающими находить сообщества покупателей, пользуясь все тем же набором данных. У вас даже будет экскурсия во внешний мир (относительно Excel), правда, очень краткая, для пущей наглядности данных.
Вы хотите самостоятельно продвинуться в кластеризации по k-средним? Не забывайте, что стандартный Excel способен управиться только с 200 переменными «Поиска решения», поэтому советую обновить надстройку на нелинейный решатель получше (к примеру, PremuimSolver с сайта Solver.com или просто мигрировать в LibreOffice), чтобы кластеризировать данные во многих измерениях сделок и пользоваться большими значениями k.
Большинство программ для статистики предлагает возможности кластеризации. Например, R выпускается с функцией k-средних; так или иначе, более широкие возможности открывает пакет fastcluster, в который входят k-медианы и набор функций расстояния. В главе 10 вы познакомитесь с пакетом skmeans для применения сферических k-средних.
Назад: K-медианная кластеризация и асимметрическое измерение расстояний
Дальше: 3. Наивный байесовский классификатор и неописуемая легкость бытия идиотом

БУРГЕР КИНГ
Я не робот!
Антон
Перезвоните мне пожалуйста по номеру. 8 (953) 367-35-45 Антон
Антон
Перезвоните мне пожалуйста 8 (495) 248-01-88 Антон.