Внутригрупповые дисперсии

По данным приложения 1 с целью изучения зависимости между факторным и результативным признаками произведите аналитическую группировку с равными интервалами.

Решение находим с помощью сервиса Аналитическая группировка.
Цель исследований: На основе исходных данных, проанализируем, влияет ли общий стаж работы сотрудников предприятия на их заработную плату. В качестве инструмента решения будем использовать сервис Аналитическая группировка.

Данные группируются по признаку-фактору. Затем по каждой группе рассчитывается среднее значение. Задача состоит в том, чтобы увидеть, есть связь между признаками или нет; прямая связь или обратная; линейная или нелинейная.
Так как в основание группировки положен непрерывный количественный признак, то число групп определяют одновременно с размером интервала.
Когда совокупность единиц более или менее однородна (вариация по группировочному признаку мала), прибегают к равным интервалам, размер которых приближенно определяется по формуле Стэрджесса:
n = 1 + 3,2log n
n = 1 + 3,2log 30 = 6
Тогда ширина интервала составит:


Для каждого значения ряда подсчитаем, какое количество раз оно попадает в тот или иной интервал. Для этого сортируем ряд по возрастанию.

1 1 - 6 1
1 1 - 6 2
3 1 - 6 3
4 1 - 6 4
5 1 - 6 5
7 6 - 11 1
7 6 - 11 2
10 6 - 11 3
10 6 - 11 4
10 6 - 11 5
11 6 - 11 6
12 11 - 16 1
13 11 - 16 2
14 11 - 16 3
14 11 - 16 4
16 11 - 16 5
16 11 - 16 6
16 11 - 16 7
18 16 - 21 1
18 16 - 21 2
18 16 - 21 3
20 16 - 21 4
22 21 - 26 1
23 21 - 26 2
24 21 - 26 3
24 21 - 26 4
26 21 - 26 5
30 26 - 31 1
30 26 - 31 2
31 26 - 31 3


Аналитическая группировка.
Группы Кол-во, n Общий стаж работы, ∑X Средний стаж работы

Xcp = ∑X / n

Заработная плата за месяц, тыс. руб.,

∑Y

Средняя заработная плата,

Ycp = ∑Y / n

1 - 6 1,2,3,4,5 5 14 2.8 5.6 1.12
6 - 11 6,7,8,9,10,11 6 55 9.17 8.7 1.45
11 - 16 12,13,14,15,16,17,18 7 101 14.43 10.6 1.51
16 - 21 19,20,21,22 4 74 18.5 6.3 1.58
21 - 26 23,24,25,26,27 5 119 23.8 8.5 1.7
26 - 31 28,29,30 3 91 30.33 6.1 2.03
Итого 30 454 45.8

По аналитической группировке измеряют связь при помощи эмпирического корреляционного отношения. Оно основан на правиле разложения дисперсии: общая дисперсия равна сумме внутригрупповой и межгрупповой дисперсий.
1. Находим средние значения каждой группы.






Общее средние значение для всей совокупности:

2. Дисперсия внутри группы при относительном постоянстве признака-фактора возникает за счет других факторов (не связанных с изучением). Эта дисперсия называется остаточной:

Расчет для группы: 1 - 6 (1,2,3,4,5)
yj (yj - yср)2 Результат
0.9 (0.9 - 1.12)2 0.0484
0.9 (0.9 - 1.12)2 0.0484
1.3 (1.3 - 1.12)2 0.0324
1.2 (1.2 - 1.12)2 0.0064
1.3 (1.3 - 1.12)2 0.0324
Итого 0.17

Определим групповую (частную) дисперсию для 1-ой группы:

Расчет для группы: 6 - 11 (6,7,8,9,10,11)
yj (yj - yср)2 Результат
1.4 (1.4 - 1.45)2 0.0025
1.3 (1.3 - 1.45)2 0.0225
1.5 (1.5 - 1.45)2 0.0025
1.5 (1.5 - 1.45)2 0.0025
1.5 (1.5 - 1.45)2 0.0025
1.5 (1.5 - 1.45)2 0.0025
Итого 0.035

Определим групповую (частную) дисперсию для 2-ой группы:

Расчет для группы: 11 - 16 (12,13,14,15,16,17,18)
yj (yj - yср)2 Результат
1.6 (1.6 - 1.51)2 0.00735
1.7 (1.7 - 1.51)2 0.0345
1.7 (1.7 - 1.51)2 0.0345
1.4 (1.4 - 1.51)2 0.0131
1.4 (1.4 - 1.51)2 0.0131
1.4 (1.4 - 1.51)2 0.0131
1.4 (1.4 - 1.51)2 0.0131
Итого 0.13

Определим групповую (частную) дисперсию для 3-ой группы:

Расчет для группы: 16 - 21 (19,20,21,22)
yj (yj - yср)2 Результат
1.8 (1.8 - 1.58)2 0.0506
1.5 (1.5 - 1.58)2 0.00563
1.4 (1.4 - 1.58)2 0.0306
1.6 (1.6 - 1.58)2 0.000625
Итого 0.0875

Определим групповую (частную) дисперсию для 4-ой группы:

Расчет для группы: 21 - 26 (23,24,25,26,27)
yj (yj - yср)2 Результат
1.7 (1.7 - 1.7)2 0
1.7 (1.7 - 1.7)2 0
1.5 (1.5 - 1.7)2 0.04
1.8 (1.8 - 1.7)2 0.01
1.8 (1.8 - 1.7)2 0.01
Итого 0.06

Определим групповую (частную) дисперсию для 5-ой группы:

Расчет для группы: 26 - 31 (28,29,30)
yj (yj - yср)2 Результат
1.9 (1.9 - 2.03)2 0.0178
2 (2 - 2.03)2 0.00111
2.2 (2.2 - 2.03)2 0.0278
Итого 0.0467


Определим групповую (частную) дисперсию для 6-ой группы:

3. Внутригрупповые дисперсии объединяются в средней величине внутригрупповых дисперсий:

Средняя из частных дисперсий:

4. Межгрупповая дисперсия относится на счет изучаемого фактора, она называется факторной

δ2 = ((1.12-1.53)2*5 + (1.45-1.53)2*6 + (1.51-1.53)2*7 + (1.58-1.53)2*4 + (1.7-1.53)2*5 + (2.03-1.53)2*3 + ...)/30 = 0.0598
Определяем общую дисперсию по всей совокупности, используя правило сложения дисперсий:

σ2 = 0.0175 + 0.0598 = 0.0773
Проверим этот вывод путем расчета общей дисперсии обычным способом:
yi (yi - yср)2 Результат
0.9 (0.9 - 1.53)2 0.39
0.9 (0.9 - 1.53)2 0.39
1.3 (1.3 - 1.53)2 0.0514
1.2 (1.2 - 1.53)2 0.11
1.3 (1.3 - 1.53)2 0.0514
1.4 (1.4 - 1.53)2 0.016
1.3 (1.3 - 1.53)2 0.0514
1.5 (1.5 - 1.53)2 0.000711
1.5 (1.5 - 1.53)2 0.000711
1.5 (1.5 - 1.53)2 0.000711
1.5 (1.5 - 1.53)2 0.000711
1.6 (1.6 - 1.53)2 0.00538
1.7 (1.7 - 1.53)2 0.03
1.7 (1.7 - 1.53)2 0.03
1.4 (1.4 - 1.53)2 0.016
1.4 (1.4 - 1.53)2 0.016
1.4 (1.4 - 1.53)2 0.016
1.4 (1.4 - 1.53)2 0.016
1.8 (1.8 - 1.53)2 0.0747
1.5 (1.5 - 1.53)2 0.000711
1.4 (1.4 - 1.53)2 0.016
1.6 (1.6 - 1.53)2 0.00538
1.7 (1.7 - 1.53)2 0.03
1.7 (1.7 - 1.53)2 0.03
1.5 (1.5 - 1.53)2 0.000711
1.8 (1.8 - 1.53)2 0.0747
1.8 (1.8 - 1.53)2 0.0747
1.9 (1.9 - 1.53)2 0.14
2 (2 - 1.53)2 0.22
2.2 (2.2 - 1.53)2 0.45
Итого 2.32


Эмпирическое корреляционное отношение измеряет, какую часть общей колеблемости результативного признака вызывает изучаемый фактор. Это отношение факторной дисперсии к общей дисперсии:

Определяем эмпирическое корреляционное отношение:

Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока:
0.1 < η < 0.3: слабая;
0.3 < η < 0.5: умеренная;
0.5 < η < 0.7: заметная;
0.7 < η < 0.9: высокая;
0.9 < η < 1: весьма высокая;
В нашем примере связь между заработной платой Y и стажем работника X высокая.
Коэффициент детерминации.

Определим коэффициент детерминации:

Вывод: Таким образом, на 77.33% вариация обусловлена различиями между признаками, а на 22.67% – другими факторами. Связь между заработной платой и стажем работника - высокая.

загрузка...