Книга: Статистика и котики
Назад: Глава 6. Диета для котиков или Многофакторный дисперсионный анализ
Дальше: Глава 10. Формула счастья или Основы регрессионного анализа

Глава 8. Лечение котиков или Дисперсионный анализ с повторными измерениями

Из предыдущего раздела мы узнали, как определить, помогает ли то или иное лекарство, если ваш котик заболел. Однако, иногда котики болеют тяжело, и им требуется специальное лечение в особых котиковых клиниках. И, как правило, это лечение подразумевает регулярную сдачу анализов, чтобы отслеживать, становится ли котикам лучше.









Когда таких сдач много (а точнее, больше двух), возникает проблема множественных сравнений, о которой мы не раз говорили выше. Если кратко, то она заключается в том, что, если вы будете попарно сравнивать первый анализ со вторым, второй с третьим и т. д., вероятность того, что вы ошибетесь в своих выводах, будет возрастать.

Разрешить эту проблему, как и в предыдущем случае, может дисперсионный анализ, а точнее, его особая разновидность – дисперсионный анализ с повторными измерениями. Нулевая гипотеза такого анализа состоит в том, что состояние котиков от пробы к пробе не меняется.













В самом простом варианте мы действуем практически так же, как и при обычном дисперсионном анализе: делим дисперсию на части. В тот раз таких частей было две: первая была обусловлена влиянием лечения (межгрупповая дисперсия), а вторая – остальными факторами (внутригрупповая дисперсия).

Однако важным отличием является то, что мы проводим все измерения на одних и тех же котиках. Иными словами, каждый котик измеряется по несколько раз и, соответственно, вносит свой вклад в общую дисперсию. Таким образом, наша дисперсия делится уже на три части: межгрупповую, внутригрупповую и межиндивидуальную.













Критерий Фишера сравнивает между собой только первые два вклада. Соответственно, чем он больше, тем больше причин отклонить нулевую гипотезу. И опять же – если вы отклонили ее, то попарное сравнение нужно будет проводить с помощью специальных post hoc критериев.











У дисперсионного анализа с повторными измерениями есть свой непараметрический брат-близнец – критерий Фридмана, который применяется, если есть выбросы и/или распределение отличается от нормального.

Идея его достаточно проста. Возьмем одного из котиков, у которого взяли три пробы анализов. Каждой из этих проб мы присваиваем ранг, где один – это самый плохой анализ, а три – самый хороший. То же самое мы делаем и с остальными котиками, получая в итоге вот такую таблицу.













Очевидно, что если первая проба у всех котиков самая плохая, а последняя – самая хорошая, то по итогу суммы рангов будут сильно различаться и нулевая гипотеза будет опровергнута. Обратная ситуация – когда суммы рангов во всех пробах одинаковы. Это будет означать, что лечение никак не повлияло на котиков.













Сам же критерий Фридмана, собственно, и позволяет оценить, насколько различаются эти суммы рангов.





НЕМАЛОВАЖНО ЗНАТЬ!
Сложные эксперименты


Некоторое время назад мы рассмотрели, как правильно обрабатывать простые эксперименты с двумя группами и двумя замерами (до и после воздействия). Однако если групп и замеров больше, то наша задача существенно усложняется.













К примеру, мы разделили наших котиков на три группы: первой мы даем лекарство (экспериментальная), второй не даем лекарство (контрольная), а третьей даем пустышку, но говорим им, что дали лекарство (плацебо-группа). При этом каждая группа замеряется три раза: в начале, середине и конце лечения.

Для обработки такого исследования нам необходим двухфакторный дисперсионный анализ с повторными измерениями. Подобно обычному двухфакторному ДА такой анализ легче всего интерпретируется с помощью графиков.













В частности из этого графика мы можем увидеть, что котики, принимавшие лекарство, выздоровели, плацебо-котикам стало чуть лучше, а контрольные котики так и продолжают болеть. Правда, возможно, на наши результаты могли повлиять небольшие различия между котиками в начале эксперимента.

К слову, все попарные различия между группами в разные моменты также необходимо проверять с помощью post hoc критериев. В частности – с помощью поправки Бонферрони.

Глава 9. Как сделать котика счастливым или Основы корреляционного анализа

Безусловно, мы все хотим, чтобы наши котики были счастливы, и поэтому стараемся их постоянно радовать. Однако разных котиков радуют разные вещи: один любит вкусно поесть, другой – поиграть, а третий – поточить когти о любимый хозяйский диван.











Безусловно, существуют и некоторые универсальные вещи, которые радуют большинство котиков, что сильно упрощает нам жизнь.

И в этой главе мы рассмотрим один из методов, который позволяет их выявить, – корреляционный анализ.

Предположим, мы решили проверить, связаны ли между собой котиковое счастье и размер ежедневных котиковых порций. Если обильная еда делает котиков счастливыми, то эта взаимосвязь будет отражаться вот таким графиком.











Это так называемая линейная положительная связь. Противоположная (хотя и маловероятная) ситуация – котики являются приверженцами оздоровительных голоданий, и чем больше порции им предлагают, тем более несчастными они становятся.













Такая связь называется линейной отрицательной. Наконец, может получиться так, что котикам вообще не важно, насколько большие у них порции, главное, чтоб еда была вкусной. В этом случае мы наблюдаем отсутствие связи (или нулевую связь), которая отображается вот таким вот графиком.











Однако в реальной жизни мы очень редко можем наблюдать подобные случаи: как правило, у нас возникает что-нибудь такое.











И поэтому мы нуждаемся в некоторой мере, которая позволила бы нам, во-первых, оценить, насколько сильно связаны между собой счастье и количество доступной еды, а во-вторых, является ли эта связь положительной или отрицательной.

Для вычисления такой меры воспользуемся хитрым способом. Для начала представим, что у нас наблюдается линейная положительная связь. Теперь посчитаем средние арифметические по размеру порций и уровню счастья, а затем возьмем эти показатели в качестве нулевых точек отсчета для нашего графика. После этого мы можем увидеть, что часть котиков более счастлива и получает больше еды, чем в среднем, а остальные – менее счастливы и получают меньше еды, чем средний котик.













Отклонения от среднего по обеим величинам у первых, зажиточных котиков будут положительными числами, а у вторых – отрицательными. Однако если вы возьмете любого из них (назовем его Барсиком) и перемножите его отклонения между собой, то вы получите положительное число. В том числе и потому, что минус на минус дает плюс.











Теперь представим обратную ситуацию: чем больше порции, тем менее счастливыми становятся котики (типичного представителя этой группы мы назовем Мурзиком). В этом случае мы также наблюдаем разделение на две группы: несчастных обжор и счастливых голодающих. Но и у тех, и у других знак одного отклонения будет положительным, а знак другого – отрицательным. А как мы знаем, произведение положительного и отрицательного чисел дает отрицательное число.

Иными словами, знак, который получается при перемножении отклонений, может служить индикатором того, является ли наш котик Барсиком, который становится счастливее при увеличении порций, либо Мурзиком, которому еда отвратительна. Осталось только понять, кто из них делает больший вклад в наблюдаемые данные, что достигается простым суммированием полученных произведений. Если при результате стоит плюс, то победили Барсики и связь положительная. Если минус – то преобладают Мурзики и связь отрицательная. Если же ответ близок к нулю, объявляется боевая ничья и признается отсутствие связи.











Далее с помощью некоторых нехитрых преобразований этот результат приводят в нужную размерность, получив так называемый коэффициент корреляции Пирсона. Он может изменяться в пределах от -1 до 1, где -1 – отрицательная связь, +1 – положительная связь, а 0 – отсутствие всякой связи.











Нулевая гипотеза такого коэффициента – связи нет, альтернативная – связь есть (не важно, положительная или отрицательная). Если коэффициент корреляции достаточно большой по модулю, то нулевая гипотеза отвергается в пользу альтернативной.

Основная проблема r Пирсона как параметрического критерия (т. е. использующего в расчетной формуле средние значения) заключается в том, что он очень не любит выбросы и ненормальные распределения. Поэтому у него есть непараметрический аналог – коэффициент корреляции Спирмена.

Чтобы его вычислить, упорядочим наших котиков от самого счастливого до самого несчастного и присвоим им ранги. Затем мы перераспределим их от самого переедающего до самого голодного и присвоим им ранги уже по этому признаку. Если результаты обоих ранжирований будут совпадать между собой, то мы можем констатировать положительную связь, если же они будут диаметрально противоположными – отрицательную.

Критерий Спирмена мы получаем, применив специальную формулу к нашим рангам, и он интерпретируется аналогично r-критерию Пирсона.

















Как правило, проводя корреляционный анализ, мы анализируем сразу несколько переменных и по итогу получаем так называемую корреляционную матрицу. В ней записаны все вычисленные коэффициенты корреляции. Чтобы найти, какие переменные связаны с счастьем, достаточно найти нужный столбик и посмотреть, какие из этих коэффициентов являются значимыми.













Единственное – если вы находите несколько коэффициентов корреляции одновременно, то здесь опять возникает проблема множественных сравнений. Решить ее можно, применив всю ту же поправку Бонферрони: поделив критический p-уровень значимости (0,05) на количество вычисленных критериев (в нашем случае на 3) и сравнив наш p-уровень с получившимся значением (0,017).

К большому сожалению, корреляционный анализ позволяет установить только само наличие связи. Однако сказать, насколько сильно тот или иной фактор влияет на счастье, он не способен. Для этого используются более мощные методы, о которых мы поговорим в следующей главе.





НЕМАЛОВАЖНО ЗНАТЬ!
Корреляция может обмануть


При проведении корреляционного анализа очень важно помнить, что высокий коэффициент корреляции не всегда указывает на характер связи между явлениями. В качестве примера предположим, что мы нашли взаимосвязь между размером котиков и их эмоциональным состоянием. Иными словами – чем больше котик, тем он счастливее.













Тогда теоретически равноправными являются следующие утверждения.

1. Большие котики лучше реализуются в жизни и от того более счастливы.

2. Хорошее расположение духа вызывает более активную выработку гормонов роста, что и приводит к данному эффекту.

3. Существует некоторая третья переменная, которая обусловливает как хорошее настроение, так и разницу в размерах. Например, качество и количество котикового корма.

4. Это просто совпадение.













И чтобы определить, какая из этих гипотез верна, необходимо организовать экспериментальное исследование, о котором шла речь в предыдущих главах.

Назад: Глава 6. Диета для котиков или Многофакторный дисперсионный анализ
Дальше: Глава 10. Формула счастья или Основы регрессионного анализа