Дисперсия, среднеквадратичное (стандартное) отклонение, коэффициент вариации в Excel
Дисперсия случайной величины – это один из основных показателей в статистике. Он отражает меру разброса данных вокруг средней арифметической.
Сейчас небольшой экскурс в теорию вероятностей, которая лежит в основе математической статистики. Как и матожидание, дисперсия является важной характеристикой случайной величины. Если матожидание отражает центр случайной величины, то дисперсия дает характеристику разброса данных вокруг центра.
Формула дисперсии в теории вероятностей имеет вид:
То есть дисперсия — это математическое ожидание отклонений от математического ожидания.
На практике при анализе выборок математическое ожидание, как правило, не известно. Поэтому вместо него используют оценку – среднее арифметическое. Расчет дисперсии производят по формуле:
s 2 – выборочная дисперсия, рассчитанная по данным наблюдений,
X – отдельные значения,
X̅– среднее арифметическое по выборке.
Стоит отметить, что у такого расчета дисперсии есть недостаток – она получается смещенной, т.е. ее математическое ожидание не равно истинному значению дисперсии. Подробней об этом здесь. Однако при увеличении объема выборки она все-таки приближается к своему теоретическому аналогу, т.е. является асимптотически не смещенной.
Простыми словами дисперсия – это средний квадрат отклонений. То есть вначале рассчитывается среднее значение, затем берется разница между каждым исходным и средним значением, возводится в квадрат, складывается и затем делится на количество значений в данной совокупности. Разница между отдельным значением и средней отражает меру отклонения. В квадрат возводится для того, чтобы все отклонения стали исключительно положительными числами и чтобы избежать взаимоуничтожения положительных и отрицательных отклонений при их суммировании. Затем, имея квадраты отклонений, просто рассчитываем среднюю арифметическую. Средний – квадрат – отклонений. Отклонения возводятся в квадрат, и считается средняя. Теперь вы знаете, как найти дисперсию.
Среднеквадратичное отклонение — что это
Стандартное (или среднеквадратичное) отклонение – это квадратный корень из дисперсии. В свою очередь, под последним термином подразумевается степень разброса значений. Для получения дисперсии, и, как следствие, ее производного в виде стандартного отклонения, существует специальная формула, которая, впрочем, нам не так важна. Она довольно сложная по своей структуре, но при этом ее можно полностью автоматизировать средствами Excel. Главное – знать, какие параметры нужно передавать функции. В целом как для вычисления дисперсии, так и стандартного отклонения, аргументы используются одинаковые.
- Сначала мы получаем среднее арифметическое.
- После этого каждое исходное значение сопоставляется со средним и определяется разница между ними.
- После этого каждая разница возводится во вторую степень, после чего получившиеся результаты складываются между собой.
- Наконец, финальный шаг – деление получившегося значения на общее количество элементов в данной выборке.
Получив разницу между одним значением и средним арифметическим всей выборки, мы можем узнать расстояние к нему от определенной точки на координатной прямой. Начинающему человеку вся логика понятна равно до третьего шага. Зачем возводить значение в квадрат? Дело в том, что иногда разница может быть отрицательной, а нам нужно получить положительное число. И, как известно, минус на минус дает плюс. А далее нам нужно определить среднее арифметическое из получившихся значений. Дисперсия имеет несколько свойств:
- Если выводить дисперсию из одного числа, то она всегда будет равняться нулю.
- Если случайное число умножить на константу А, то дисперсия увеличится в количество раз, равное А в квадрате. Проще говоря, константу можно вынести за знак дисперсии и возвести его во вторую степень.
- Если к произвольному числу добавить константу А или же отнять ее, то дисперсия от этого не поменяется.
- Если два случайных числа, обозначаемых, к примеру переменными X и Y не зависят друг от друга, то в таком случае для них справедлива формула. D(X+Y) = D(X) + D(Y)
- Если же в предыдущую формулу внести изменения и пытаться определить дисперсию разницы этих значений, то она также будет составлять сумму этих дисперсий.
Среднеквадратическое отклонение – это математический термин, являющийся производным от дисперси. Получить его очень просто: достаточно извлечь квадратный корень из дисперсии.
Разница между дисперсией и стандартным отклонением находится сугубо в плоскости единиц измерения, если можно так выразиться. Стандартное отклонение является значительно более простым для считывания показателем, поскольку оно показывается не в квадратах числа, а непосредственно в значениях. Простыми словами, если в числовой последовательности 1,2,3,4,5 средним арифметическим является 3, то соответственно, стандартным отклонением будет число 1,58. Это говорит о том, что в среднем одно число отклоняется от среднего числа (которым является тройка в нашем примере), на 1,58.
Дисперсия же будет тем же самым числом, только возведенным в квадрат. В нашем примере – чуть меньше, чем 2,5. В принципе, можно использовать как дисперсию, так и стандартное отклонение для статистических расчетов, только надо четко знать, с каким именно показателем пользователь работает.
Среднеквадратичное (стандартное) отклонение
Если из дисперсии извлечь квадратный корень, получится среднеквадратичное (стандартное) отклонение (сокращенно СКО). Встречается название среднее квадратичное отклонение и сигма (от названия греческой буквы). Общая формула стандартного отклонения в математике следующая:
На практике формула стандартного отклонения следующая:
Как и с дисперсией, есть и немного другой вариант расчета. Но с ростом выборки разница исчезает.