Домашний очаг

Дисперсия дискретной случайной величины. Среднее квадратическое отклонение

Часто в статистике при анализе какого-либо явления или процесса необходимо учитывать не только информацию о средних уровнях исследуемых показателей, но и разброс или вариацию значений отдельных единиц , которая является важной характеристикой изучаемой совокупности.

В наибольшей степени вариации подвержены курсы акций, объемы спроса и предложения, процентные ставки в разные периоды времени и в разных местах.

Основными показателями, характеризующими вариацию , являются размах, дисперсия, среднее квадратическое отклонение и коэффициент вариации.

Размах вариации представляет собой разность максимального и минимального значений признака: R = Xmax – Xmin . Недостатком данного показателя является то, что он оценивает только границы варьирования признака и не отражает его колеблемость внутри этих границ.

Дисперсия лишена этого недостатка. Она рассчитывается как средний квадрат отклонений значений признака от их средней величины:

Упрощенный способ расчета дисперсии осуществляется с помощью следующих формул (простой и взвешенной):

Примеры применения данных формул представлены в задачах 1 и 2.

Широко распространенным на практике показателем является среднее квадратическое отклонение :

Среднее квадратическое отклонение определяется как квадратный корень из дисперсии и имеет ту же размеренность, что и изучаемый признак.

Рассмотренные показатели позволяют получить абсолютное значение вариации, т.е. оценивают ее в единицах измерения исследуемого признака. В отличие от них, коэффициент вариации измеряет колеблемость в относительном выражении - относительно среднего уровня, что во многих случаях является предпочтительнее.

Формула для расчета коэффициента вариации.

Примеры решения задач по теме «Показатели вариации в статистике»

Задача 1 . При изучении влияния рекламы на размер среднемесячного вклада в банках района обследовано 2 банка. Получены следующие результаты:

Определить:
1) для каждого банка: а) средний размер вклада за месяц; б) дисперсию вклада;
2) средний размер вклада за месяц для двух банков вместе;
3) Дисперсию вклада для 2-х банков, зависящую от рекламы;
4) Дисперсию вклада для 2-х банков, зависящую от всех факторов, кроме рекламы;
5) Общую дисперсию используя правило сложения;
6) Коэффициент детерминации;
7) Корреляционное отношение.

Решение

1) Составим расчетную таблицу для банка с рекламой . Для определения среднего размера вклада за месяц найдем середины интервалов. При этом величина открытого интервала (первого) условно приравнивается к величине интервала, примыкающего к нему (второго).

Средний размер вклада найдем по формуле средней арифметической взвешенной:

29 000/50 = 580 руб.

Дисперсию вклада найдем по формуле:

23 400/50 = 468

Аналогичные действия произведем для банка без рекламы :

2) Найдем средний размер вклада для двух банков вместе. Хср =(580×50+542,8×50)/100 = 561,4 руб.

3) Дисперсию вклада, для двух банков, зависящую от рекламы найдем по формуле: σ 2 =pq (формула дисперсии альтернативного признака). Здесь р=0,5 – доля факторов, зависящих от рекламы; q=1-0,5, тогда σ 2 =0,5*0,5=0,25.

4) Поскольку доля остальных факторов равна 0,5, то дисперсия вклада для двух банков, зависящая от всех факторов кроме рекламы тоже 0,25.

5) Определим общую дисперсию, используя правило сложения.

= (468*50+636,16*50)/100=552,08

= [(580-561,4)250+(542,8-561,4)250] / 100= 34 596/ 100=345,96

σ 2 = σ 2 факт + σ 2 ост = 552,08+345,96 = 898,04

6) Коэффициент детерминации η 2 = σ 2 факт / σ 2 = 345,96/898,04 = 0,39 = 39% - размер вклада на 39% зависит от рекламы.

7) Эмпирическое корреляционное отношение η = √η 2 = √0,39 = 0,62 – связь достаточно тесная.

Задача 2 . Имеется группировка предприятий по величине товарной продукции:

Определить: 1) дисперсию величины товарной продукции; 2) среднее квадратическое отклонение; 3) коэффициент вариации.

Решение

1) По условию представлен интервальный ряд распределения. Его необходимо выразить дискретно, то есть найти середину интервала (х"). В группах закрытых интервалов середину найдем по простой средней арифметической. В группах с верхней границей - как разность между этой верхней границей и половиной размера следующего за ним интервала (200-(400-200):2=100).

В группах с нижней границей – суммой этой нижней границы и половины размера предыдущего интервала (800+(800-600):2=900).

Расчет средней величины товарной продукции делаем по формуле:

Хср = k×((Σ((х"-a):k)×f):Σf)+a. Здесь а=500 - размер варианта при наибольшей частоте, k=600-400=200 - размер интервала при наибольшей частоте. Результат поместим в таблицу:

Итак, средняя величина товарной продукции за изучаемый период в целом равна Хср = (-5:37)×200+500=472,97 тыс. руб.

2) Дисперсию найдем по следующей формуле:

σ 2 = (33/37)*2002-(472,97-500)2 = 35 675,67-730,62 = 34 945,05

3) среднее квадратическое отклонение: σ = ±√σ 2 = ±√34 945,05 ≈ ±186,94 тыс. руб.

4) коэффициент вариации: V = (σ /Хср)*100 = (186,94 / 472,97)*100 = 39,52%

Для сгруппированных данных остаточная дисперсия - средняя из внутригрупповых дисперсий:

Где σ 2 j - внутригрупповая дисперсия j -й группы.

Для не сгруппированных данных остаточная дисперсия – мера точности аппроксимации, т.е. приближения линии регрессии к исходным данным:
где y(t) – прогноз по уравнению тренда; y t – исходный ряд динамики; n – количество точек; p – число коэффициентов уравнения регрессии (количество объясняющих переменных).
В этом примере она называется несмещенная оценка дисперсии .

Пример №1 . Распределение рабочих трех предприятий одного объединения по тарифным разрядам характеризуется следующими данными:

Тарифный разряд рабочего Численность рабочих на предприятии
предприятие 1 предприятие 2 предприятие 3
1 50 20 40
2 100 80 60
3 150 150 200
4 350 300 400
5 200 150 250
6 150 100 150

Определить:
1. дисперсию по каждому предприятию (внутригрупповые дисперсии);
2. среднюю из внутригрупповых дисперсий;
3. межгрупповую дисперсию ;
4. общую дисперсию.

Решение.
Прежде чем приступить к решению задачи необходимо выяснить, какой признак является результативным, а какой – факторным. В рассматриваемом примере результативным признаком является «Тарифный разряд», а факторным признаком – «Номер (название) предприятия».
Тогда имеем три группы (предприятия), для которых необходимо рассчитать групповую среднюю и внутригрупповые дисперсии :


Предприятие Групповая средняя, Внутригрупповая дисперсия,
1 4 1,8

Средняя из внутригрупповых дисперсий (остаточная дисперсия ) рассчитаем по формуле:


где можно рассчитать:
либо:


тогда:
Общая дисперсия будет равна: s 2 = 1,6 + 0 = 1,6.
Общую дисперсию также можно рассчитать и по одной из следующих двух формул:

При решении практических задач часто приходится иметь дело с признаком, принимающим только два альтернативных значения. В этом случае говорят не о весе того или иного значения признака, а о его доле в совокупности. Если долю единиц совокупности, обладающих изучаемым признаком, обозначить через «р », а не обладающих – через «q », то дисперсию можно рассчитать по формуле:
s 2 = p×q

Пример №2 . По данным о выработке шести рабочих бригады определить межгрупповую дисперсию и оценить влияние рабочей смены на их производительность труда, если общая дисперсия равна 12,2 .

№ рабочего бригады Выработка рабочего, шт.
в I смену во II смену
1 18 13
2 19 14
3 22 15
4 20 17
5 24 16
6 23 15

Решение . Исходные данные

X f 1 f 2 f 3 f 4 f 5 f 6 Итого
1 18 19 22 20 24 23 126
2 13 14 15 17 16 15 90
Итого 31 33 37 37 40 38

Тогда имеем 6 группы, для которых необходимо рассчитать групповую среднюю и внутригрупповые дисперсии.
1. Находим средние значения каждой группы .







2. Находим среднее квадратическое каждой группы .







Результаты расчета сведем в таблицу:
Номер группы Групповая средняя Внутригрупповая дисперсия
1 1.42 0.24
2 1.42 0.24
3 1.41 0.24
4 1.46 0.25
5 1.4 0.24
6 1.39 0.24

3. Внутригрупповая дисперсия характеризует изменение (вариацию) изучаемого (результативного) признака в пределах группы под действием на него всех факторов, кроме фактора, положенного в основание группировки:
Среднюю из внутригрупповых дисперсий рассчитаем по формуле:


4. Межгрупповая дисперсия характеризует изменение (вариацию) изучаемого (результативного) признака под действием на него фактора (факторного признака), положенного в основание группировки.
Межгрупповую дисперсию определим как:

где


Тогда

Общая дисперсия характеризует изменение (вариацию) изучаемого (результативного) признака под действием на него всех без исключения факторов (факторных признаков). По условию задачи она равна 12.2 .
Эмпирическое корреляционное отношение измеряет, какую часть общей колеблемости результативного признака вызывает изучаемый фактор. Это отношение факторной дисперсии к общей дисперсии:

Определяем эмпирическое корреляционное отношение:

Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока:
0.1 0.3 0.5 0.7 0.9 В нашем примере связь между признаком Y фактором X слабая
Коэффициент детерминации.

Определим коэффициент детерминации:

Таким образом, на 0.67% вариация обусловлена различиями между признаками, а на 99.37% – другими факторами.
Вывод : в данном случае выработка рабочих не зависит от работы в конкретную смену, т..е. влияние рабочей смены на их производительность труда не значительное и обусловлено другими факторами.

Пример №3 . На основе данных о средней заработной плате и квадратах отклонений от её величины по двум группам рабочих найти общую дисперсию, применив правило сложения дисперсий:

Решение:
Средняя из внутригрупповых дисперсий

Межгрупповую дисперсию определим как:


Общая дисперсия будет равна: 480 + 13824 = 14304

Дисперсия в статистике находится как индивидуальных значений признака в квадрате от . В зависимости от исходных данных она определяется по формулам простой и взвешенной дисперсий:

1. (для несгруппированных данных) вычисляется по формуле:

2. Взвешенная дисперсия (для вариационного ряда):

где n — частота (повторяемость фактора Х)

Пример нахождения дисперсии

На данной странице описан стандартный пример нахождения дисперсии, также Вы можете посмотреть другие задачи на её нахождение

Пример 1. Имеются следующие данные по группе из 20 студентов заочного отделения. Нужно построить интервальный ряд распределения признака, рассчитать среднее значение признака и изучить его дисперсию

Построим интервальную группировку. Определим размах интервала по формуле:

где X max– максимальное значение группировочного признака;
X min–минимальное значение группировочного признака;
n – количество интервалов:

Принимаем n=5. Шаг равен: h = (192 — 159)/ 5 = 6,6

Составим интервальную группировку

Для дальнейших расчетов построим вспомогательную таблицу:

X’i– середина интервала. (например середина интервала 159 – 165,6 = 162,3)

Среднюю величину роста студентов определим по формуле средней арифметической взвешенной:

Определим дисперсию по формуле:

Формулу дисперсии можно преобразовать так:

Из этой формулы следует, что дисперсия равна разности средней из квадратов вариантов и квадрата и средней.

Дисперсия в вариационных рядах с равными интервалами по способу моментов может быть рассчитана следующим способом при использовании второго свойства дисперсии (разделив все варианты на величину интервала). Определении дисперсии , вычисленной по способу моментов, по следующей формуле менее трудоемок:

где i - величина интервала;
А - условный ноль, в качестве которого удобно использовать середину интервала, обладающего наибольшей частотой;
m1 — квадрат момента первого порядка;
m2 — момент второго порядка

(если в статистической совокупности признак изменяется так, что имеются только два взаимно исключающих друг друга варианта, то такая изменчивость называется альтернативной) может быть вычислена по формуле:

Подставляя в данную формулу дисперсии q =1- р, получаем:

Виды дисперсии

Общая дисперсия измеряет вариацию признака по всей совокупности в целом под влиянием всех факторов, обуславливающих эту вариацию. Она равняется среднему квадрату отклонений отдельных значений признака х от общего среднего значения х и может быть определена как простая дисперсия или взвешенная дисперсия.

характеризует случайную вариацию, т.е. часть вариации, которая обусловлена влиянием неучтенных факторов и не зависящую от признака-фактора, положенного в основание группировки. Такая дисперсия равна среднему квадрату отклонений отдельных значений признака внутри группы X от средней арифметической группы и может быть вычислена как простая дисперсия или как взвешенная дисперсия.

Таким образом, внутригрупповая дисперсия измеряет вариацию признака внутри группы и определяется по формуле:

где хi - групповая средняя;
ni - число единиц в группе.

Например, внутригрупповые дисперсии, которые надо определить в задаче изучения влияния квалификации рабочих на уровень производительности труда в цехе показывают вариации выработки в каждой группе, вызванные всеми возможными факторами (техническое состояние оборудования, обеспеченность инструментами и материалами, возраст рабочих, интенсивность труда и т.д.), кроме отличий в квалификационном разряде (внутри группы все рабочие имеют одну и ту же квалификацию).

Средняя из внутри групповых дисперсий отражает случайную , т. е. ту часть вариации, которая происходила под влиянием всех прочих факторов, за исключением фактора группировки. Она рассчитывается по формуле:

Характеризует систематическую вариацию результативного признака, которая обусловлена влиянием признака-фактора, положенного в основание группировки. Она равняется среднему квадрату отклонений групповых средних от общей средней. Межгрупповая дисперсия рассчитывается по формуле:

Правило сложения дисперсии в статистике

Согласно правилу сложения дисперсий общая дисперсия равна сумме средней из внутригрупповых и межгрупповых дисперсий:

Смысл этого правила заключается в том, что общая дисперсия, которая возникает под влиянием всех факторов, равняется сумме дисперсий, которые возникают под влиянием всех прочих факторов, и дисперсии, возникающей за счет фактора группировки.

Пользуясь формулой сложения дисперсий, можно определить по двум известным дисперсиям третью неизвестную, а также судить о силе влияния группировочного признака.

Свойства дисперсии

1. Если все значения признака уменьшить (увеличить) на одну и ту же постоянную величину, то дисперсия от этого не изменится.
2. Если все значения признака уменьшить (увеличить) в одно и то же число раз n, то дисперсия соответственно уменьшится (увеличить) в n^2 раз.

Наряду с изучением вариации признака по всей по всей совокупности в целом часто бывает необходимо проследить количественные изменения признака по группам, на которые разделяется совокупность, а также и между группами. Такое изучение вариации достигается посредством вычисления и анализа различных видов дисперсии.
Выделяют дисперсию общую, межгрупповую и внутригрупповую .
Общая дисперсия σ 2 измеряет вариацию признака по всей совокупности под влиянием всех факторов, обусловивших эту вариацию, .

Межгрупповая дисперсия (δ) характеризует систематическую вариацию, т.е. различия в величине изучаемого признака, возникающие под влиянием признака-фактора, положенного в основание группировки. Она рассчитывается по формуле:
.

Внутригрупповая дисперсия (σ) отражает случайную вариацию, т.е. часть вариации, происходящую под влиянием неучтенных факторов и не зависящую от признака-фактора, положенного в основание группировки. Она вычисляется по формуле:
.

Средняя из внутригрупповых дисперсий : .

Существует закон, связывающий 3 вида дисперсии. Общая дисперсия равна сумме средней из внутригрупповых и межгрупповой дисперсии: .
Данное соотношение называют правилом сложения дисперсий .

В анализе широко используется показатель, представляющий собой долю межгрупповой дисперсии в общей дисперсии. Он носит название эмпирического коэффициента детерминации (η 2): .
Корень квадратный из эмпирического коэффициента детерминации носит название эмпирического корреляционного отношения (η) :
.
Оно характеризует влияние признака, положенного в основание группировки, на вариацию результативного признака. Эмпирическое корреляционное отношение изменяется в пределах от 0 до 1.
Покажем его практическое использование на следующем примере (табл. 1).

Пример №1 . Таблица 1 - Производительность труда двух групп рабочих одного из цехов НПО «Циклон»

Рассчитаем общую и групповые средние и дисперсии:




Исходные данные для вычисления средней из внутригрупповых и межгрупповой дисперсии представлены в табл. 2.
Таблица 2
Расчет и δ 2 по двум группам рабочих.


Группы рабочих
Численность рабочих, чел. Средняя, дет./смен. Дисперсия

Прошедшие техническое обучение

5 95 42,0

Не прошедшие техническое обучение

5 81 231,2

Все рабочие

10 88 185,6
Рассчитаем показатели. Средняя из внутригрупповых дисперсий:
.
Межгрупповая дисперсия

Общая дисперсия:
Таким образом, эмпирическое корреляционное соотношение: .

Наряду с вариацией количественных признаков может наблюдаться и вариация качественных признаков. Такое изучение вариации достигается посредством вычисления следующих видов дисперсий:

Внутригрупповая дисперсия доли определяется по формуле

где n i – численность единиц в отдельных группах.
Доля изучаемого признака во всей совокупности, которая определяется по формуле:
Три вида дисперсии связаны между собой следующим образом:
.

Это соотношение дисперсий называется теоремой сложения дисперсий доли признака.

Основными обобщающими показателями вариации в статистике являются дисперсии и среднее квадратическое отклонение.

Дисперсия  это средняя арифметическая квадратов отклонений каждого значения признака от общей средней. Дисперсия обычно называется средним квадратом отклонений и обозначается  2 . В зависимости от исходных данных дисперсия может вычисляться по средней арифметической простой или взвешенной:

 дисперсия невзвешенная (простая);

 дисперсия взвешенная.

Среднее квадратическое отклонение  это обобщающая характеристика абсолютных размеров вариации признака в совокупности. Выражается оно в тех же единицах измерения, что и признак (в метрах, тоннах, процентах, гектарах и т. д.).

Среднее квадратическое отклонение представляет собой корень квадратный из дисперсии и обозначается :

 среднее квадратическое отклонение невзвешенное;

 среднее квадратическое отклонение взвешенное.

Среднее квадратическое отклонение является мерилом надежности средней. Чем меньше среднее квадратическое отклонение, тем лучше средняя арифметическая отражает всю представляемую совокупность.

Вычислению среднего квадратического отклонения предшествует расчет дисперсии.

Порядок расчета дисперсии взвешенной следующий:

1) определяют среднюю арифметическую взвешенную:

2) рассчитывают отклонения вариантов от средней:

3) возводят в квадрат отклонение каждого варианта от средней:

4) умножают квадраты отклонений на веса (частоты):

5) суммируют полученные произведения:

6) полученную сумму делят на сумму весов:

Пример 2.1

Исчислим среднюю арифметическую взвешенную:

Значения отклонений от средней и их квадратов представлены в таблице. Определим дисперсию:

Среднее квадратическое отклонение будет равно:

Если исходные данные представлены в виде интервального ряда распределения , то сначала нужно определить дискретное значение признака, а затем применить изложенный метод.

Пример 2.2

Покажем расчет дисперсии для интервального ряда на данных о распределении посевной площади колхоза по урожайности пшеницы.

Средняя арифметическая равна:

Исчислим дисперсию:

6.3. Расчет дисперсии по формуле по индивидуальным данным

Техника вычисления дисперсии сложна, а при больших значениях вариантов и частот может быть громоздкой. Расчеты можно упростить, используя свойства дисперсии.

Дисперсия имеет следующие свойства.

1. Уменьшение или увеличение весов (частот) варьирующего признака в определенное число раз дисперсию не изменяет.

2. Уменьшение или увеличение каждого значения признака на одну и ту же постоянную величину А дисперсию не изменяет.

3. Уменьшение или увеличение каждого значения признака в какое-то число раз k соответственно уменьшает или увеличивает дисперсию в k 2 раз, а среднее квадратическое отклонение  в k раз.

4. Дисперсия признака относительно произвольной величины всегда больше дисперсии относительно средней арифметической на квадрат разности между средней и произвольной величинами:

Если А  0, то приходим к следующему равенству:

т. е. дисперсия признака равна разности между средним квадратом значений признака и квадратом средней.

Каждое свойство при расчете дисперсии может быть применено самостоятельно или в сочетании с другими.

Порядок расчета дисперсии простой:

1) определяют среднюю арифметическую :

2) возводят в квадрат среднюю арифметическую:

3) возводят в квадрат отклонение каждого варианта ряда:

х i 2 .

4) находят сумму квадратов вариантов:

5) делят сумму квадратов вариантов на их число, т. е. определяют средний квадрат:

6) определяют разность между средним квадратом признака и квадратом средней:

Пример 3.1 Имеются следующие данные о производительности труда рабочих:

Произведем следующие расчеты: