Книга: Google Таблицы
Назад: TRANSLATE: переводим текст в ячейках
Дальше: Формулы массива

СТАТИСТИКА

ГЕНЕРАЦИЯ СЛУЧАЙНЫХ ЧИСЕЛ (Р)

Генерировать случайные числа часто бывает нужно для учебных примеров (как в этой книге, например) или статистических расчетов.

Для этой цели в Таблицах есть две функции: RAND (СЛЧИС) и RANDBETWEEN (СЛУЧМЕЖДУ).

RAND не имеет аргументов и генерирует случайное число от 0 до 1 (не включая единицу, то есть в интервале [0,1)):

Как и в Excel, при любых действиях в таблице результаты расчета функций меняются. Если вы хотите зафиксировать сгенерированные случайные числа — сохраните их как значения.

RANDBETWEEN генерирует число в заданном диапазоне. Первый аргумент — начало интервала (от), второй — конец (до). Оба конца интервала включены (интервал [от, до]).

То есть функция

=RANDBETWEEN­(1;1000)

=СЛУЧМЕЖДУ­(1;1000)

будет генерировать число от 1 (включительно) до 1000 (включительно):

КОРРЕЛЯЦИЯ. ФУНКЦИЯ CORREL (КОРРЕЛ)

Корреляция — это статистический показатель, характеризующий силу статистической связи между двумя случайными величинами (наборами наблюдаемых данных).

Коэффициент корреляции любых величин всегда лежит в диапазоне от –1 до 1. На данном промежутке можно выделить следующие точки и интервалы:

–1 — детерминированная (неслучайная) отрицательная связь. Одна величина растет — другая падает, и наоборот. Связь строгая, то есть величины связаны напрямую;

от –1 до –0,8 — сильная отрицательная связь. Вообще, чем больше коэффициент корреляции (по модулю) — тем сильнее связь;

от –0,8 до 0 — слабая отрицательная связь (значения ближе к нулю означают, скорее всего, полное отсутствие связи — такая корреляция может возникать случайно);

0 — полное отсутствие связи;

от 0 до 0,8 — слабая положительная связь (значения ближе к нулю означают, скорее всего, полное отсутствие связи — такая корреляция может возникать случайно);

от 0,8 до 1 — сильная положительная связь;

1 — детерминированная (неслучайная, строгая) положительная связь показателей.

Коэффициент корреляции полезен для определения причинно-следственных связей. При этом связь может быть двусторонней (например, привлекательность соцсети и количество зарегистрировавшихся пользователей — так называемый сетевой эффект). Чем привлекательнее социальная сеть, тем больше в ней регистрируется людей, верно и в обратную сторону: чем больше зарегистрировавшихся пользователей, тем привлекательнее соцсеть.

Часто встречается односторонняя связь: например, сложность пожара и число пожарных, участвовавших в тушении пожара. Из наблюдаемой положительной корреляции вряд ли стоит делать вывод, что сложность пожара зависит от числа пожарных, или пытаться снизить сложность пожара, уменьшая число пожарных в команде. Тем не менее обратная взаимосвязь (от сложности пожара зависит число пожарных) выглядит разумной.

При этом помните, что наличие статистической взаимосвязи не обязательно говорит о причинно-следственной связи. Корреляция бывает ложной. Блогер Дмитрий Чернышев в своем «Живом журнале» приводит курьезные примеры, в которых есть статистическая связь, но явно отсутствует причинно-следственная. Так, сильная корреляция присутствует между:

Другим примером ложной статистической связи может служить корреляция, возникающая из-за наличия общего тренда. Например, положительная корреляция между числом выехавших на отдых за рубеж и количеством произведенных турбин. Очевидно, что причинно-следственной связи между показателями нет. Однако можно предположить, что оба показателя могут зависеть от экономического роста в стране. Близкие к нулю значения коэффициента корреляции не говорят об отсутствии причинно-следственной связи, они указывают на отсутствие линейной зависимости; взаимосвязь между величинами может быть более сложной.

Таким образом, при анализе статистической взаимосвязи в первую очередь нужно опираться на логическую объяснимость направления (положительную или отрицательную) и силы взаимосвязи. Если эмпирический опыт подтверждается корреляцией, можно смело ее использовать. Если статистика не соответствует практике, необходимо использовать ее с осторожностью.

Для расчета коэффициента корреляции в Google Таблицах есть функция КОРРЕЛ (CORREL). Ее аргументы — это диапазоны с фактическими значениями показателей.

В примере в столбце A и B находятся случайные числа (сгенерированные с помощью функции СЛУЧМЕЖДУ (RANDBETWEEN)). Коэффициент корреляции практически нулевой, что вполне естественно. Между двумя массивами случайных чисел связи нет.

Связь можно анализировать и на диаграммах, хорошо подходит точечная:

В следующем примере мы рассчитаем корреляцию между ценой нефти марки Brent и курсом USD/RUB. Связь весьма сильная: –0,82:

Диаграмма для этих данных:

МОДА, МЕДИАНА И СРЕДНЕЕ

Приведем определения:

Для расчета в Google Таблицах используйте следующие функции:

В качестве среднего может быть указано и среднее, и медиана, и мода. В компании с огромной зарплатой руководителя и низкими зарплатами сотрудников будет высокая средняя зарплата, не очень высокая медианная (то есть зарплата человека, которая одновременно меньше зарплаты одной половины сотрудников и больше зарплаты другой) и совсем невысокая мода (то есть зарплата, чаще всего встречающаяся в компании).

Рассмотрим простой пример в числах.

Пусть в компании есть 8 руководителей, которые получают по 3000 неких денежных единиц, 20 сотрудников, получающих по 2000 единиц, и 27 сотрудников, которые получают по 200 единиц.

Средняя зарплата в компании = 69 400 / 55 = 1261 денежная единица.

Медиана = 2000 единиц, это зарплата того человека, который «богаче» одной половины коллег и «беднее» другой половины.

Мода = 200 единиц, это самая часто встречающаяся зарплата.

Когда какой показатель использовать?

На практике мода используется редко. Намного больший интерес представляют среднее и медиана.

Среднее арифметическое крайне чувствительно к выбросам — нехарактерным для изучаемой выборки слишком большим или слишком малым значениям. Одно случайное экстремальное значение может сильно сместить ваше среднее. Медиана же устойчива к выбросам.

Выбор между медианой и средним зависит от целей исследования и от характера данных. Если экстремальные значения полагаются случайными или возникающими вследствие внешних причин или ошибок, медиана является более предпочтительным показателем.

Если вы имеете дело со статистикой и слышите про «среднее» — лучше поинтересоваться, как именно его рассчитывали.

ВЗВЕШЕННОЕ СРЕДНЕЕ (СМ. ТАКЖЕ )

Взвешенное среднее — среднее, при котором значения усредняемого показателя умножаются на определенные веса (например, на объем или количество).

Допустим, у вас в магазине есть 20 тысяч книг по 500 рублей, 10 тысяч книг по 600 рублей и 3 тысячи книг по 850 рублей. Какова средняя цена книги из вашего ассортимента? Количество книг здесь будет весом, а цена — усредняемым показателем.

Количество

Цена

20 000

500

10 000

600

3 000

850

   

Средневзвешенное

562

На практике для расчета этого показателя можно применять функцию СУММПРОИЗВ (SUMPRODUCT). Она позволяет перемножить несколько массивов. В данном примере она будет выглядеть так:

FREQUENCY (ЧАСТОТА). РАСПРЕДЕЛЕНИЕ ДАННЫХ

Функция FREQUENCY (ЧАСТОТА) позволяет вычислить, сколько элементов из набора данных попадает в тот или иной интервал (то есть распределение данных).

Для этого нужны данные и подготовленные интервалы:

В данном случае у нас есть следующие интервалы:

от 0 до 150;

от 150 до 300;

от 300 до 500;

от 500 до 700;

свыше 700.

В ячейках указывается только верхняя граница интервала.

У функции FREQUENCY два аргумента — данные и массив интервалов:

=FREQUENCY­(A2:A180;B2:B5)

=ЧАСТОТА­(A2:A180;B2:B5)

Таким образом, в нашем массиве данных есть 11 элементов меньше 150, 26 — в диапазоне от 150 до 300 и т. д.

Визуально распределение данных удобно представлять с помощью гистограммы:

Назад: TRANSLATE: переводим текст в ячейках
Дальше: Формулы массива