Как найти: Анализ –> Классификация –> Иерархическая кластеризация…
Что вводить:
1. Переместите признаки, по которым ваши объекты будут распределяться на группы, в поле «Переменные».
2. В разделе «Графики» отметьте галочкой «Дендрограмма».
Дополнительные опции: нажав кнопку «Статистики», вы можете потребовать у компьютера вывести принадлежность объектов к кластерам на том или ином этапе кластеризации. Кроме того, у него можно затребовать матрицу расстояний между объектами (она же – «Матрица близостей»).
В разделе «Метод» вы можете выбрать способ выделения кластеров, а также меру расстояния.
Куда смотреть: на дендрограмме показана принадлежность объектов к тому или иному классу на всех этапах кластеризации.
Если же вы отметили соответствующую галочку, то вы можете посмотреть принадлежность объектов к кластеру на определенном этапе кластеризации в таблице «Принадлежность к кластерам».
Как найти: Анализ –> Классификация –> Кластеризация К-средними.
Что вводить:
1. Переместите признаки, по которым ваши объекты будут распределяться на группы, в поле «Переменные».
2. Выберите число кластеров.
3. В разделе «Параметры» отметьте «Конечный кластер для каждого наблюдения».
Дополнительные опции: ничего интересного.
Куда смотреть: из таблицы «Принадлежность к кластерам» можно увидеть, какой объект к какому кластеру принадлежит.
А в таблице «Конечные центры кластеров» расположены координаты каждого центроида.
Как найти: Анализ –> Снижение размерности –> Факторный анализ.
Что вводить:
1. Переместите переменные, на основе которых будут выделяться факторы, в поле «Переменные».
2. Нажмите на кнопку «Вращение» и выберите метод вращения (чаше всего «варимакс»).
Дополнительные опции: в разделе «Извлечение» можно выбрать метод извлечения, вывести график собственных значений или настроить количество факторов, которые выделятся по итогу.
Куда смотреть: результаты факторного анализа находятся в «Повернутой матрице компонентов». Там – коэффициенты корреляции между факторами и отдельными переменными.
Собственные значения факторов можно посмотреть в таблице «Объясненная совокупная дисперсия».
Если после прочтения данной книги вы заинтересовались статистикой, то было бы не лишним узнать, что еще можно посмотреть по данной тематике.
В первую очередь я бы рекомендовал курсы института биоинформатики на сайте www.stepik. org. А именно «Основы статистики» в трех частях, который ведут Анатолий Карпов, Иван Иванчей, Полина Дроздова и Арсений Москвичев. Там все просто, доходчиво и талантливо. А демонстрируемая глубина изложения встречается далеко не в каждом учебнике.
Второй источник, достойный упоминания – это «Статистика для всех» С. Бослаф. Единственное – она весьма недешёвая и её трудно найти. Содержание же выше самых похвал – подробно рассмотрены самые распространенные методы обработки данных, в том числе и специфические для медицины, экономики и бизнеса.
Также я достаточно часто захожу на портал знаний statistica.ru компании StatSoft. Местный электронный учебник хорош в качестве справочного пособия. Что касается самого анализа данных в системе Statsoft Statistica, то о нём можно узнать в учебнике Боровикова «Популярное введение в современный анализ данных в системе STATISTICA».
Если же вам приходится работать в SPSS – возьмите книгу А. Д. Наследова «IBM SPSS Statistics 20 и AMOS: Профессиональный статистический анализ данных». Там описано решение большинства типовых задач, с которыми приходится сталкиваться исследователю.
По статистическому языку R есть прекрасный курс на том же stepik.org. Ведут Анатолий Карпов и Иван Иванчей.
А вообще, самый главный источник знаний – это исследовательская работа. Решение практических задач способствует их усвоению и закреплению в гораздо большей степени, чем чтение книг. Поэтому если вы хотите освоить этот предмет – ищите достойные задачи, решение которых позволит сделать наш мир лучше и интереснее.
Здесь мне хотелось бы выразить благодарность людям, без которых издание книги было бы невозможным.
И в первую очередь спасибо тем, кто поверил в этот проект и вложился в него, став спонсорами на краудфандинговой площадке Boomstarter. Без них он так и остался бы просто красивой идеей. Ваша поддержка вдохновляла меня, а ответственность перед вами заставляла ежедневно работать над книгой, делая ее все лучше и лучше.
В особенности мне бы хотелось поблагодарить следующих спонсоров: Дмитрия Чумаченко, Елену Зеркаленкову, Анатолия Федоточкина, Леонида Тощева, Евгения Комоцкого, Ольгу Романову, Ивана Равового, Алексея Иванова (aviva24), Вадима Шмыгова и школу «Инфографика TUT», Максима Кравцова, Ирину Шафранскую, Сергея Черепанова, Владимира Волохонского, Александра Белоцерковского, Евгения Степанищева, Вячеслава Калошина и Игоря Мосягина. Их вклад был по-настоящему щедрым и позволил реализовать несколько интересных идей.
Среди них есть три человека, которых я знаю лично и которым я бы хотел выразить отдельную благодарность. В частности, благодаря Дмитрию
Чумаченко в свое время я и занялся анализом данных. Именно его меткое замечание во время одного моего выступления на конференции подвигло меня на изучение этой дисциплины.
Взаимообмен идеями с Евгением Комоцким, моим коллегой и хорошим другом, помог мне сильно продвинуться в этой области. Спасибо ему за те удивительные и интересные задачи, которые нам вместе приходится решать.
Владимир Львович Волохонский был и остается для меня авторитетом в области сбора и обработки данных. Я горжусь тем, что он не только стал спонсором моего проекта, но и выступил в качестве эксперта для этой книги.
В связи с этим я бы хотел выразить огромную благодарность ему и другим экспертам, которые помогли сделать эту книгу гораздо лучше, чем она могла бы быть. Они нашли огромное количество ошибок и неточностей, опрометчиво допущенных мной, и не позволили мне ввести вас в заблуждение относительно некоторых важных тем.
Также спасибо Андрею Дмитриевичу Наследову, автору учебника «Математические методы психологического исследования», ставшего настольной книгой для многих психологов. Помимо экспертной оценки, которую он дал, я бы хотел поблагодарить его за отзыв о «Статистике и котиках». Этот отзыв придал мне уверенности в своих силах – я понял, что двигаюсь в правильном направлении.
Моя переписка с Анатолием Карповым достойна отдельной главы. Будучи психологом по образованию и преподавателем статистики в Институте биоинформатики, он, пожалуй, внес наибольший вклад в содержание книги. Огромное спасибо ему за консультации и экспертную оценку. И обратите внимание на курсы, которые он и его коллеги делают на сайте . Они великолепны.
Помимо экспертов, значительный вклад в содержание книги внесли двое читателей блога: Алексей Русаков и Алексей Сотов. С последним, кстати, мы дружим уже много-много лет.
Спасибо администраторам групп «ВКонтакте», согласившихся опубликовать у себя новость о книге. Особая благодарность Исмаилу Алиеву за живой интерес и неоценимую помощь в продвижении проекта в социальных сетях.
Также я хотел бы поблагодарить людей, непосредственно работавших со мной над реализацией «Статистики и котиков»: Сысоеву Анну из компании Boomstarter, которая помогла организовать краудфандинговую кампанию, и Марию Рявину из издательства Ridero за помощь в организации печати и доставки тиража до спонсоров. За обложку, кстати, спасибо Максиму Силенкову.
А Александра Бахманова и Ирина Знаменская помогли скрыть мою орфографическую и пунктуационную безграмотность.
Особая благодарность – Корженевскому Юрию. Он стал настоящим ангелом-хранителем этого проекта. Он приложил руку буквально ко всему – начиная с оказания значительной финансовой поддержки, заканчивая поиском дизайнера для обложки. Но самое важное, что я от него получил, это правильные вопросы, заданные им в правильное время. Я многому научился, работая с ним.
Наконец, я бы хотел поблагодарить своих родных, друзей и коллег за моральную поддержку и безграничное терпение. Со мной реально было тяжело в эти месяцы.
И спасибо Виталине. Без нее я бы не справился.