Генерировать случайные числа часто бывает нужно для учебных примеров (как в этой книге, например) или статистических расчетов.
Для этой цели в Таблицах есть две функции: RAND (СЛЧИС) и RANDBETWEEN (СЛУЧМЕЖДУ).
RAND не имеет аргументов и генерирует случайное число от 0 до 1 (не включая единицу, то есть в интервале [0,1)):
Как и в Excel, при любых действиях в таблице результаты расчета функций меняются. Если вы хотите зафиксировать сгенерированные случайные числа — сохраните их как значения.
RANDBETWEEN генерирует число в заданном диапазоне. Первый аргумент — начало интервала (от), второй — конец (до). Оба конца интервала включены (интервал [от, до]).
То есть функция
=RANDBETWEEN(1;1000)
=СЛУЧМЕЖДУ(1;1000)
будет генерировать число от 1 (включительно) до 1000 (включительно):
Корреляция — это статистический показатель, характеризующий силу статистической связи между двумя случайными величинами (наборами наблюдаемых данных).
Коэффициент корреляции любых величин всегда лежит в диапазоне от –1 до 1. На данном промежутке можно выделить следующие точки и интервалы:
–1 — детерминированная (неслучайная) отрицательная связь. Одна величина растет — другая падает, и наоборот. Связь строгая, то есть величины связаны напрямую;
от –1 до –0,8 — сильная отрицательная связь. Вообще, чем больше коэффициент корреляции (по модулю) — тем сильнее связь;
от –0,8 до 0 — слабая отрицательная связь (значения ближе к нулю означают, скорее всего, полное отсутствие связи — такая корреляция может возникать случайно);
0 — полное отсутствие связи;
от 0 до 0,8 — слабая положительная связь (значения ближе к нулю означают, скорее всего, полное отсутствие связи — такая корреляция может возникать случайно);
от 0,8 до 1 — сильная положительная связь;
1 — детерминированная (неслучайная, строгая) положительная связь показателей.
Коэффициент корреляции полезен для определения причинно-следственных связей. При этом связь может быть двусторонней (например, привлекательность соцсети и количество зарегистрировавшихся пользователей — так называемый сетевой эффект). Чем привлекательнее социальная сеть, тем больше в ней регистрируется людей, верно и в обратную сторону: чем больше зарегистрировавшихся пользователей, тем привлекательнее соцсеть.
Часто встречается односторонняя связь: например, сложность пожара и число пожарных, участвовавших в тушении пожара. Из наблюдаемой положительной корреляции вряд ли стоит делать вывод, что сложность пожара зависит от числа пожарных, или пытаться снизить сложность пожара, уменьшая число пожарных в команде. Тем не менее обратная взаимосвязь (от сложности пожара зависит число пожарных) выглядит разумной.
При этом помните, что наличие статистической взаимосвязи не обязательно говорит о причинно-следственной связи. Корреляция бывает ложной. Блогер Дмитрий Чернышев в своем «Живом журнале» приводит курьезные примеры, в которых есть статистическая связь, но явно отсутствует причинно-следственная. Так, сильная корреляция присутствует между:
Другим примером ложной статистической связи может служить корреляция, возникающая из-за наличия общего тренда. Например, положительная корреляция между числом выехавших на отдых за рубеж и количеством произведенных турбин. Очевидно, что причинно-следственной связи между показателями нет. Однако можно предположить, что оба показателя могут зависеть от экономического роста в стране. Близкие к нулю значения коэффициента корреляции не говорят об отсутствии причинно-следственной связи, они указывают на отсутствие линейной зависимости; взаимосвязь между величинами может быть более сложной.
Таким образом, при анализе статистической взаимосвязи в первую очередь нужно опираться на логическую объяснимость направления (положительную или отрицательную) и силы взаимосвязи. Если эмпирический опыт подтверждается корреляцией, можно смело ее использовать. Если статистика не соответствует практике, необходимо использовать ее с осторожностью.
Для расчета коэффициента корреляции в Google Таблицах есть функция КОРРЕЛ (CORREL). Ее аргументы — это диапазоны с фактическими значениями показателей.
В примере в столбце A и B находятся случайные числа (сгенерированные с помощью функции СЛУЧМЕЖДУ (RANDBETWEEN)). Коэффициент корреляции практически нулевой, что вполне естественно. Между двумя массивами случайных чисел связи нет.
Связь можно анализировать и на диаграммах, хорошо подходит точечная:
В следующем примере мы рассчитаем корреляцию между ценой нефти марки Brent и курсом USD/RUB. Связь весьма сильная: –0,82:
Диаграмма для этих данных:
Приведем определения:
Для расчета в Google Таблицах используйте следующие функции:
В качестве среднего может быть указано и среднее, и медиана, и мода. В компании с огромной зарплатой руководителя и низкими зарплатами сотрудников будет высокая средняя зарплата, не очень высокая медианная (то есть зарплата человека, которая одновременно меньше зарплаты одной половины сотрудников и больше зарплаты другой) и совсем невысокая мода (то есть зарплата, чаще всего встречающаяся в компании).
Рассмотрим простой пример в числах.
Пусть в компании есть 8 руководителей, которые получают по 3000 неких денежных единиц, 20 сотрудников, получающих по 2000 единиц, и 27 сотрудников, которые получают по 200 единиц.
Средняя зарплата в компании = 69 400 / 55 = 1261 денежная единица.
Медиана = 2000 единиц, это зарплата того человека, который «богаче» одной половины коллег и «беднее» другой половины.
Мода = 200 единиц, это самая часто встречающаяся зарплата.
Когда какой показатель использовать?
На практике мода используется редко. Намного больший интерес представляют среднее и медиана.
Среднее арифметическое крайне чувствительно к выбросам — нехарактерным для изучаемой выборки слишком большим или слишком малым значениям. Одно случайное экстремальное значение может сильно сместить ваше среднее. Медиана же устойчива к выбросам.
Выбор между медианой и средним зависит от целей исследования и от характера данных. Если экстремальные значения полагаются случайными или возникающими вследствие внешних причин или ошибок, медиана является более предпочтительным показателем.
Если вы имеете дело со статистикой и слышите про «среднее» — лучше поинтересоваться, как именно его рассчитывали.
Взвешенное среднее — среднее, при котором значения усредняемого показателя умножаются на определенные веса (например, на объем или количество).
Допустим, у вас в магазине есть 20 тысяч книг по 500 рублей, 10 тысяч книг по 600 рублей и 3 тысячи книг по 850 рублей. Какова средняя цена книги из вашего ассортимента? Количество книг здесь будет весом, а цена — усредняемым показателем.
Количество | Цена |
20 000 | 500 |
10 000 | 600 |
3 000 | 850 |
Средневзвешенное | 562 |
На практике для расчета этого показателя можно применять функцию СУММПРОИЗВ (SUMPRODUCT). Она позволяет перемножить несколько массивов. В данном примере она будет выглядеть так:
Функция FREQUENCY (ЧАСТОТА) позволяет вычислить, сколько элементов из набора данных попадает в тот или иной интервал (то есть распределение данных).
Для этого нужны данные и подготовленные интервалы:
В данном случае у нас есть следующие интервалы:
от 0 до 150;
от 150 до 300;
от 300 до 500;
от 500 до 700;
свыше 700.
В ячейках указывается только верхняя граница интервала.
У функции FREQUENCY два аргумента — данные и массив интервалов:
=FREQUENCY(A2:A180;B2:B5)
=ЧАСТОТА(A2:A180;B2:B5)
Таким образом, в нашем массиве данных есть 11 элементов меньше 150, 26 — в диапазоне от 150 до 300 и т. д.
Визуально распределение данных удобно представлять с помощью гистограммы: