Внутригрупповые дисперсии
Цель исследований: На основе исходных данных, проанализируем, влияет ли общий стаж работы сотрудников предприятия на их заработную плату. В качестве инструмента решения будем использовать сервис
Аналитическая группировка.
Данные группируются по признаку-фактору. Затем по каждой группе рассчитывается среднее значение. Задача состоит в том, чтобы увидеть, есть связь между признаками или нет; прямая связь или обратная; линейная или нелинейная.
Так как в основание группировки положен непрерывный количественный признак, то число групп определяют одновременно с размером интервала.
Когда совокупность единиц более или менее однородна (вариация по группировочному признаку мала), прибегают к равным интервалам, размер которых приближенно определяется по формуле Стэрджесса:
n = 1 + 3,2log n = 1 + 3,2log 30 = 6
Тогда ширина интервала составит:
Для каждого значения ряда подсчитаем, какое количество раз оно попадает в тот или иной интервал. Для этого сортируем ряд по возрастанию.
1 | 1 - 6 | 1 |
1 | 1 - 6 | 2 |
3 | 1 - 6 | 3 |
4 | 1 - 6 | 4 |
5 | 1 - 6 | 5 |
7 | 6 - 11 | 1 |
7 | 6 - 11 | 2 |
10 | 6 - 11 | 3 |
10 | 6 - 11 | 4 |
10 | 6 - 11 | 5 |
11 | 6 - 11 | 6 |
12 | 11 - 16 | 1 |
13 | 11 - 16 | 2 |
14 | 11 - 16 | 3 |
14 | 11 - 16 | 4 |
16 | 11 - 16 | 5 |
16 | 11 - 16 | 6 |
16 | 11 - 16 | 7 |
18 | 16 - 21 | 1 |
18 | 16 - 21 | 2 |
18 | 16 - 21 | 3 |
20 | 16 - 21 | 4 |
22 | 21 - 26 | 1 |
23 | 21 - 26 | 2 |
24 | 21 - 26 | 3 |
24 | 21 - 26 | 4 |
26 | 21 - 26 | 5 |
30 | 26 - 31 | 1 |
30 | 26 - 31 | 2 |
31 | 26 - 31 | 3 |
Группы | № | Кол-во, n | Общий стаж работы, ∑X | Средний стаж работы X = ∑X/n | Заработная плата за месяц, тыс. руб., ∑Y | Средняя заработная плата, Y=∑Y/n |
1 - 6 | 1,2,3,4,5 | 5 | 14 | 2.8 | 5.6 | 1.12 |
6 - 11 | 6,7,8,9,10,11 | 6 | 55 | 9.17 | 8.7 | 1.45 |
11 - 16 | 12,13,14,15,16,17,18 | 7 | 101 | 14.43 | 10.6 | 1.51 |
16 - 21 | 19,20,21,22 | 4 | 74 | 18.5 | 6.3 | 1.58 |
21 - 26 | 23,24,25,26,27 | 5 | 119 | 23.8 | 8.5 | 1.7 |
26 - 31 | 28,29,30 | 3 | 91 | 30.33 | 6.1 | 2.03 |
Итого | 30 | 454 | 45.8 |
1. Находим средние значения каждой группы.
Общее средние значение для всей совокупности:
2. Дисперсия внутри группы при относительном постоянстве признака-фактора возникает за счет других факторов (не связанных с изучением). Эта дисперсия называется остаточной:
Расчет для группы: 1 - 6 (1,2,3,4,5)
yj | (yj- yср)2 | Результат |
0.9 | (0.9 - 1.12)2 | 0.0484 |
0.9 | (0.9 - 1.12)2 | 0.0484 |
1.3 | (1.3 - 1.12)2 | 0.0324 |
1.2 | (1.2 - 1.12)2 | 0.0064 |
1.3 | (1.3 - 1.12)2 | 0.0324 |
Итого | 0.17 |
Расчет для группы: 6 - 11 (6,7,8,9,10,11)
yj | (yj- y1)2 | Результат |
1.4 | (1.4 - 1.45)2 | 0.0025 |
1.3 | (1.3 - 1.45)2 | 0.0225 |
1.5 | (1.5 - 1.45)2 | 0.0025 |
1.5 | (1.5 - 1.45)2 | 0.0025 |
1.5 | (1.5 - 1.45)2 | 0.0025 |
1.5 | (1.5 - 1.45)2 | 0.0025 |
Итого | 0.035 |
Расчет для группы: 11 - 16 (12,13,14,15,16,17,18)
yj | (yj- y2)2 | Результат |
1.6 | (1.6 - 1.51)2 | 0.00735 |
1.7 | (1.7 - 1.51)2 | 0.0345 |
1.7 | (1.7 - 1.51)2 | 0.0345 |
1.4 | (1.4 - 1.51)2 | 0.0131 |
1.4 | (1.4 - 1.51)2 | 0.0131 |
1.4 | (1.4 - 1.51)2 | 0.0131 |
1.4 | (1.4 - 1.51)2 | 0.0131 |
Итого | 0.13 |
Расчет для группы: 16 - 21 (19,20,21,22)
yj | (yj- y3)2 | Результат |
1.8 | (1.8 - 1.58)2 | 0.0506 |
1.5 | (1.5 - 1.58)2 | 0.00563 |
1.4 | (1.4 - 1.58)2 | 0.0306 |
1.6 | (1.6 - 1.58)2 | 0.000625 |
Итого | 0.0875 |
Расчет для группы: 21 - 26 (23,24,25,26,27)
yj | (yj- y4)2 | Результат |
1.7 | (1.7 - 1.7)2 | 0 |
1.7 | (1.7 - 1.7)2 | 0 |
1.5 | (1.5 - 1.7)2 | 0.04 |
1.8 | (1.8 - 1.7)2 | 0.01 |
1.8 | (1.8 - 1.7)2 | 0.01 |
Итого | 0.06 |
Расчет для группы: 26 - 31 (28,29,30)
yj | (yj- y5)2 | Результат |
1.9 | (1.9 - 2.03)2 | 0.0178 |
2 | (2 - 2.03)2 | 0.00111 |
2.2 | (2.2 - 2.03)2 | 0.0278 |
Итого | 0.0467 |
3. Внутригрупповые дисперсии объединяются в средней величине внутригрупповых дисперсий:
Средняя из частных дисперсий:
4. Межгрупповая дисперсия относится на счет изучаемого фактора, она называется факторной
δ2 = ((1.12-1.53)2*5 + (1.45-1.53)2*6 + (1.51-1.53)2*7 + (1.58-1.53)2*4 + (1.7-1.53)2*5 + (2.03-1.53)2*3 + ...)/30 = 0.0598
Общая дисперсия по всей совокупности определяется по формуле сложения дисперсий: σ²=σ²i+δ² = 0.0175+0.0598 = 0.0773
Проверим этот вывод путем расчета общей дисперсии обычным способом:
yi | (yi- y6)2 | Результат |
0.9 | (0.9 - 1.53)2 | 0.39 |
0.9 | (0.9 - 1.53)2 | 0.39 |
1.3 | (1.3 - 1.53)2 | 0.0514 |
1.2 | (1.2 - 1.53)2 | 0.11 |
1.3 | (1.3 - 1.53)2 | 0.0514 |
1.4 | (1.4 - 1.53)2 | 0.016 |
1.3 | (1.3 - 1.53)2 | 0.0514 |
1.5 | (1.5 - 1.53)2 | 0.000711 |
1.5 | (1.5 - 1.53)2 | 0.000711 |
1.5 | (1.5 - 1.53)2 | 0.000711 |
1.5 | (1.5 - 1.53)2 | 0.000711 |
1.6 | (1.6 - 1.53)2 | 0.00538 |
1.7 | (1.7 - 1.53)2 | 0.03 |
1.7 | (1.7 - 1.53)2 | 0.03 |
1.4 | (1.4 - 1.53)2 | 0.016 |
1.4 | (1.4 - 1.53)2 | 0.016 |
1.4 | (1.4 - 1.53)2 | 0.016 |
1.4 | (1.4 - 1.53)2 | 0.016 |
1.8 | (1.8 - 1.53)2 | 0.0747 |
1.5 | (1.5 - 1.53)2 | 0.000711 |
1.4 | (1.4 - 1.53)2 | 0.016 |
1.6 | (1.6 - 1.53)2 | 0.00538 |
1.7 | (1.7 - 1.53)2 | 0.03 |
1.7 | (1.7 - 1.53)2 | 0.03 |
1.5 | (1.5 - 1.53)2 | 0.000711 |
1.8 | (1.8 - 1.53)2 | 0.0747 |
1.8 | (1.8 - 1.53)2 | 0.0747 |
1.9 | (1.9 - 1.53)2 | 0.14 |
2 | (2 - 1.53)2 | 0.22 |
2.2 | (2.2 - 1.53)2 | 0.45 |
Итого | 2.32 |
Эмпирическое корреляционное отношение измеряет, какую часть общей колеблемости результативного признака вызывает изучаемый фактор. Это отношение факторной дисперсии к общей дисперсии:
Определяем эмпирическое корреляционное отношение:
Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока:
0.1 < η < 0.3: слабая;
0.3 < η < 0.5: умеренная;
0.5 < η < 0.7: заметная;
0.7 < η < 0.9: высокая;
0.9 < η < 1: весьма высокая;
В нашем примере связь между заработной платой Y и стажем работника X высокая.
Коэффициент детерминации.
Определим коэффициент детерминации:
Вывод: Таким образом, на 77.33% вариация обусловлена различиями между признаками, а на 22.67% – другими факторами. Связь между заработной платой и стажем работника - высокая.