Подытожим
В главе 2 мы рассматривали кластеризацию по k-средним. Используя те же самые данные, в этой главе вы сражались с сетевыми графами и окунались в кластеризацию через максимизацию модулярности. Вы уже должны довольно неплохо себя чувствовать в добыче данных, и даже обрести некоторую уверенность. Конкретизируем освоенные вами навыки:
• визуальное представление сетевого графа, а также отображение его в виде матриц смежности и инцидентности;
• загрузка сетевого графа в Gephi для пущей уверенности в графической несостоятельности Excel;
• удаление ребер из сетевых графов с помощью графа r-окрестности. Также вы познакомились с концепцией KNN-графа, к которой я вам рекомендую вернуться и поразмыслить над ней подольше;
• определение степени вершины и модулярности графа, а также способы расчета «очков» модулярности для группировки двух вершин;
• максимизация модулярности графа с использованием линейной оптимизационной модели и разделительной кластеризации;
• максимизация модулярности графа в Gephi и экспорт результатов.
А теперь вам наверняка любопытно, чего ради я окунул вас в процесс максимизации модулярности графа, если Gephi способна сделать это за вас?
Вспомните, цель этой книги – не слепое нажатие клавиш, без осознания того, что же вы делаете. Теперь вы научились конструировать и подготавливать данные для определения кластеров. И знаете, как работает определение групп на графе. Вы это сделали. Так что в следующий раз, столкнувшись с этим «зверем», вы будете знать, что происходит по ту сторону экрана. Этот уровень понимания процесса неоценим.
Хотя Gephi и является одним из лучших мест для подобного анализа, вам может потребоваться место для написания программного кода по данным графа, такое как библиотека igraph, которая имеет привязки к R и Python и великолепно подходит для работы с сетевыми графами.
Также стоят упоминания базы данных графов Neo4J и Titan. Эти базы специально разработаны для хранения данных графов и последующих этапов доработки, независимо от сложности графа – интересует ли вас что-то простое, вроде «отображения любимых фильмов друзей Джона» или что-нибудь посложнее, вроде «нахождения кратчайшего путина Facebook от Джона до Кевина Бейкона».
Ну вот и все. Идите вперед, составляйте графы, находите группы!