Эмпирическое корреляционное отношение

Эмпирическое корреляционное отношение измеряет, какую часть общей колеблемости результативного признака вызывает изучаемый фактор. Эмпирическое корреляционное среднее варьирует от 0 до 1.
Эмпирическое корреляционное отношение: формула или Эмпирическое корреляционное отношение
Находят эмпирическое корреляционное отношение обычно в следующих типах задач:
1) когда по двум рядам данным X и Y необходимо произвести аналитическую группировку
2) группировка уже произведена, необходимо проверить правило сложения дисперсий
3) по двум рядам данным X и Y необходимо найти уравнение регрессии и оценить его значимость

Аналитическая группировка характеризует взаимосвязь между двумя и более признаками, один из которых рассматривается как результат, другой (другие) – как фактор (факторы).
Рассмотрим пример однофакторной аналитической группировки.
Таблица - Характеристика зависимости прибыли малых предприятий от оборачиваемости оборотных средств за 1997 г.

Продолжительность оборота средств,

в днях

Число малых предприятий Середина

интервала,

дни

Средняя

прибыль,

млн. руб.

Изменение средней

прибыли,

млн. руб

xi ni
20 –30 6 25 14.57
31 – 50 8 40 12.95 –1.62
51 – 80 6 65 7.40 –5.55
Итого 20 43 11.77

В данном примере:
х– оборачиваемость в днях (фактор);
у– прибыль (результат).
Данные группируются по признаку-фактору. Затем по каждой группе рассчитывается среднее значение. Задача состоит в том, чтобы увидеть, есть связь между признаками или нет; прямая связь или обратная; линейная или нелинейная.
Сопоставим изменения средних значений результата с изменениями фактора. Чтобы эти изменения были сравнимыми, надо делать группировку с равными интервалами или рассчитывать изменения результата на единицу изменения фактора.
В примере средняя прибыль изменяется от группы к группе, следовательно, связь между оборачиваемостью и прибылью есть. Причем обратная: чем медленнее оборачиваются средства, тем меньше прибыль.
Рассчитаем, на сколько снижается прибыль при замедлении оборачиваемости:
1) млн. руб./день;
2) млн. руб./день.
Полученные значения показывают величину снижения прибыли при замедлении оборачиваемости на 1 день. Здесь: следовательно, связь нелинейная.
bxy – показатели силы связи.
По аналитической группировке измеряют связь при помощи эмпирического корреляционного отношения. Оно основан на правиле разложения дисперсии: общая дисперсия равна сумме внутригрупповой и межгрупповой дисперсий.
Дисперсия внутри группы при относительном постоянстве признака-фактора возникает за счет других факторов (не связанных с изучением). Эта дисперсия называется остаточной


yij – значение признака для i-ой единицы в j-ой группе;
– среднее значение признака в j-ой группе;
nj – число единиц в j-ой группе;
m – число групп.
Внутригрупповые дисперсии объединяются в средней величине внутригрупповых дисперсий:

Межгрупповая дисперсия относится на счет изучаемого фактора, она называется факторной

Правило сложения дисперсий
или

Эмпирическое корреляционное отношение измеряет, какую часть общей колеблемости результативного признака вызывает изучаемый фактор. Это отношение факторной дисперсии к общей дисперсии:
– коэффициент детерминации;
– эмпирическое корреляционное отношение.
Рассмотрим пример.

Случай №2.
С целью установления зависимости между урожайностью и сортом винограда в одном из хозяйств на основе выборки определили урожай на 10 кустах винограда.

Наименование сорта винограда Число

проверенных кустов

Урожай винограда с каждого куста, кг
куст

№1

куст

№2

куст

№3

куст

№4

куст

№5


Сорт «А»
3 6 5 7

Сорт «Б»
5 7 6 8 5 9

Сорт «В»
2 9 7
Исчислите общую, межгрупповую и среднюю из групповых (частных) дисперсий. Определите связь между сортом и его урожайностью.
Решение. Если совокупность разбита на группы, то дисперсия признака σ2 может быть определена как сумма межгрупповой дисперсии и средней из групповых дисперсий :
;
,
где – дисперсия признака в группе i (групповая дисперсия);
x – индивидуальное значение признака;
– среднее значение признака в группе i;
fi – число наблюдений в группе i.
,
где – среднее значение признака в совокупности.
Отношение межгрупповой дисперсии к общей дает возможность измерить вариацию результативного признака за счет факторного, то есть признака, положенного в основание группировки, и тем самым судить о связи между изучаемыми признаками:
,
где – коэффициент детерминации.
Для характеристики тесноты связи берется показатель – эмпирическое корреляционное отношение, рассчитываемое как
.
Эмпирическое корреляционное среднее варьирует от 0 до 1.
При связи нет, при – связь полная.
Применим правило сложения дисперсии к исходным данным.
1. Групповые средние, т.е. средняя урожайность по каждому сорту винограда, равны:
кг;
кг;
кг.
2. Определим среднюю урожайность винограда по хозяйству:
кг.
3. Определим групповую (частную) дисперсию урожайности для каждого сорта отдельно:
;
;
.
4. Средняя из частных дисперсий:
.
5. Межгрупповая дисперсия:
.
6. Определяем общую дисперсию урожайности по всей совокупности, используя правило сложения дисперсий:
σ2 = 1,4 + 0,49 = 1,89
Проверим этот вывод путем расчета общей дисперсии обычным способом:

7. Определим коэффициент детерминации – :
или 26%.
Таким образом, только на 26% вариация урожайности обусловлена различиями между сортами, а на 74% – другими факторами (характером почвы, удобренностью участков, поливом и т.п.).
8. Определяем эмпирическое корреляционное отношение:
.
Следовательно, можно утверждать, что связь умеренная.

Случай №1.
Используя вторичные источники данных, проведем выборочное наблюдение 30 предлагаемых на продажу автомобилей Kia Sorento за последние три месяца.
Исследуемые признаки: Y – цена автомобиля, тыс. руб.; Х1 – время эксплуатации, лет;
Решение:
Данные группируются по признаку-фактору. Затем по каждой группе рассчитывается среднее значение. Задача состоит в том, чтобы увидеть, есть связь между признаками или нет; прямая связь или обратная; линейная или нелинейная.
Тогда ширина интервала составит:

Для каждого значения ряда подсчитаем, какое количество раз оно попадает в тот или иной интервал. Для этого сортируем ряд по возрастанию.

470 470 - 563 1
470 470 - 563 2
470 470 - 563 3
480 470 - 563 4
480 470 - 563 5
485 470 - 563 6
485 470 - 563 7
500 470 - 563 8
525 470 - 563 9
530 470 - 563 10
530 470 - 563 11
550 470 - 563 12
560 470 - 563 13
590 563 - 656 1
599 563 - 656 2
600 563 - 656 3
600 563 - 656 4
600 563 - 656 5
640 563 - 656 6
640 563 - 656 7
640 563 - 656 8
655 563 - 656 9
680 656 - 749 1
695 656 - 749 2
700 656 - 749 3
700 656 - 749 4
705 656 - 749 5
710 656 - 749 6
729 656 - 749 7
749 656 - 749 8


Аналитическая группировка.
Группы Кол-во, f ∑X Xcp = ∑X / f ∑Y Ycp = ∑Y / f
470 - 563 1,2,3,4,5,6,7,8,9,10,11,12,13 13 6535 502.69 121 9.31
563 - 656 14,15,16,17,18,19,20,21,22 9 5564 618.22 67 7.44
656 - 749 23,24,25,26,27,28,29,30 8 5668 708.5 43 5.38
Итого 30 17767 231


1. Находим средние значения каждой группы.

Общее средние значение для всей совокупности:

2. Дисперсия внутри группы при относительном постоянстве признака-фактора возникает за счет других факторов (не связанных с изучением). Эта дисперсия называется остаточной:

Расчет для группы: 470 - 563 (1,2,3,4,5,6,7,8,9,10,11,12,13)
yj (yj - yср)2 Результат
11 (11 - 9.31)2 2.86
11 (11 - 9.31)2 2.86
11 (11 - 9.31)2 2.86
10 (10 - 9.31)2 0.48
11 (11 - 9.31)2 2.86
9 (9 - 9.31)2 0.0947
6 (6 - 9.31)2 10.94
9 (9 - 9.31)2 0.0947
11 (11 - 9.31)2 2.86
6 (6 - 9.31)2 10.94
8 (8 - 9.31)2 1.71
8 (8 - 9.31)2 1.71
10 (10 - 9.31)2 0.48
Итого 40.77


Определим групповую (частную) дисперсию для 1-ой группы:

Расчет для группы: 563 - 656 (14,15,16,17,18,19,20,21,22)
yj (yj - yср)2 Результат
9 (9 - 7.44)2 2.42
7 (7 - 7.44)2 0.2
7 (7 - 7.44)2 0.2
8 (8 - 7.44)2 0.31
9 (9 - 7.44)2 2.42
6 (6 - 7.44)2 2.09
5 (5 - 7.44)2 5.98
8 (8 - 7.44)2 0.31
8 (8 - 7.44)2 0.31
Итого 14.22


Определим групповую (частную) дисперсию для 2-ой группы:

Расчет для группы: 656 - 749 (23,24,25,26,27,28,29,30)
yj (yj - yср)2 Результат
6 (6 - 5.38)2 0.39
5 (5 - 5.38)2 0.14
6 (6 - 5.38)2 0.39
5 (5 - 5.38)2 0.14
5 (5 - 5.38)2 0.14
6 (6 - 5.38)2 0.39
5 (5 - 5.38)2 0.14
5 (5 - 5.38)2 0.14
Итого 1.88


Определим групповую (частную) дисперсию для 3-ой группы:

3. Внутригрупповые дисперсии объединяются в средней величине внутригрупповых дисперсий:

Средняя из частных дисперсий:

4. Межгрупповая дисперсия относится на счет изучаемого фактора, она называется факторной

Определяем общую дисперсию по всей совокупности, используя правило сложения дисперсий:

σ2 = 1.9 + 2.58 = 4.48
Проверим этот вывод путем расчета общей дисперсии обычным способом:
yi (yi - yср)2 Результат
11 (11 - 7.7)2 10.89
11 (11 - 7.7)2 10.89
11 (11 - 7.7)2 10.89
10 (10 - 7.7)2 5.29
11 (11 - 7.7)2 10.89
9 (9 - 7.7)2 1.69
6 (6 - 7.7)2 2.89
9 (9 - 7.7)2 1.69
11 (11 - 7.7)2 10.89
6 (6 - 7.7)2 2.89
8 (8 - 7.7)2 0.09
8 (8 - 7.7)2 0.09
10 (10 - 7.7)2 5.29
9 (9 - 7.7)2 1.69
7 (7 - 7.7)2 0.49
7 (7 - 7.7)2 0.49
8 (8 - 7.7)2 0.09
9 (9 - 7.7)2 1.69
6 (6 - 7.7)2 2.89
5 (5 - 7.7)2 7.29
8 (8 - 7.7)2 0.09
8 (8 - 7.7)2 0.09
6 (6 - 7.7)2 2.89
5 (5 - 7.7)2 7.29
6 (6 - 7.7)2 2.89
5 (5 - 7.7)2 7.29
5 (5 - 7.7)2 7.29
6 (6 - 7.7)2 2.89
5 (5 - 7.7)2 7.29
5 (5 - 7.7)2 7.29
Итого 134.3


Определяем эмпирическое корреляционное отношение:

Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока:
0.1 < η < 0.3: слабая;
0.3 < η < 0.5: умеренная;
0.5 < η < 0.7: заметная;
0.7 < η < 0.9: высокая;
0.9 < η < 1: весьма высокая;
В нашем примере связь между признаком Y фактором X высокая
Определим коэффициент детерминации:
коэффициент детерминации
Таким образом, на 57.66% вариация обусловлена различиями между признаками, а на 42.34% – другими факторами.

Перейти к онлайн решению своей задачи

Случай №3. Подобные задачи можно решить с помощью сервиса парное уравнение регрессии.
Рассмотрим исходные данные предыдущего примера. На основании поля корреляции можно выдвинуть гипотезу (для генеральной совокупности) о том, что связь между всеми возможными значениями X и Y носит линейный характер.
Линейное уравнение регрессии имеет вид y = bx + a + ε
Система нормальных уравнений.
a•n + b∑x = ∑y
a∑x + b∑x2 = ∑y•x
Для наших данных система уравнений имеет вид
30a + 231 b = 17767
231 a + 1913 b = 132293
Из первого уравнения выражаем а и подставим во второе уравнение:
Получаем эмпирические коэффициенты регрессии: b = -33.6031, a = 850.9774
Уравнение регрессии (эмпирическое уравнение регрессии):
y = -33.6031 x + 850.9774
Для расчета параметров регрессии построим расчетную таблицу (табл. 1)

x y x2 y2 x • y
11 470 121 220900 5170
11 470 121 220900 5170
11 470 121 220900 5170
10 480 100 230400 4800
11 480 121 230400 5280
9 485 81 235225 4365
6 485 36 235225 2910
9 500 81 250000 4500
11 525 121 275625 5775
6 530 36 280900 3180
8 530 64 280900 4240
8 550 64 302500 4400
10 560 100 313600 5600
9 590 81 348100 5310
7 599 49 358801 4193
7 600 49 360000 4200
8 600 64 360000 4800
9 600 81 360000 5400
6 640 36 409600 3840
5 640 25 409600 3200
8 640 64 409600 5120
8 655 64 429025 5240
6 680 36 462400 4080
5 695 25 483025 3475
6 700 36 490000 4200
5 700 25 490000 3500
5 705 25 497025 3525
6 710 36 504100 4260
5 729 25 531441 3645
5 749 25 561001 3745
231 17767 1913 10761193 132293

1. Параметры уравнения регрессии.
Выборочные средние.



Выборочные дисперсии:


Среднеквадратическое отклонение


1.1. Коэффициент корреляции
Ковариация.

Рассчитываем показатель тесноты связи. Таким показателем является выборочный линейный коэффициент корреляции, который рассчитывается по формуле:

Линейный коэффициент корреляции принимает значения от –1 до +1.
Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока:
0.1 < rxy < 0.3: слабая;
0.3 < rxy < 0.5: умеренная;
0.5 < rxy < 0.7: заметная;
0.7 < rxy < 0.9: высокая;
0.9 < rxy < 1: весьма высокая;
В нашем примере связь между признаком Y фактором X высокая и обратная.
Эмпирическое корреляционное отношение.
Эмпирическое корреляционное отношение
где

Теоретическое корреляционное отношение для линейной связи равно коэффициенту корреляции rxy.
Коэффициент детерминации.
R2= -0.82 = 0.63
т.е. в 63.46 % случаев изменения х приводят к изменению y. Другими словами - точность подбора уравнения регрессии - средняя. Остальные 36.54 % изменения Y объясняются факторами, не учтенными в модели.
Для оценки качества параметров регрессии построим расчетную таблицу (табл. 2)
x y y(x) (yi-ycp)2 (y-y(x))2
11 470 481.34 14940.99 128.66
11 470 481.34 14940.99 128.66
11 470 481.34 14940.99 128.66
10 480 514.95 12596.32 1221.23
11 480 481.34 12596.32 1.8
9 485 548.55 11498.99 4038.51
6 485 649.36 11498.99 27013.77
9 500 548.55 8506.99 2357.03
11 525 481.34 4520.32 1905.93
6 530 649.36 3872.99 14246.49
8 530 582.15 3872.99 2719.87
8 550 582.15 1783.65 1033.78
10 560 514.95 1038.99 2029.85
9 590 548.55 4.99 1718.16
7 599 615.76 45.79 280.75
7 600 615.76 60.32 248.24
8 600 582.15 60.32 318.54
9 600 548.55 60.32 2647.18
6 640 649.36 2281.65 87.58
5 640 682.96 2281.65 1845.71
8 640 582.15 2281.65 3346.35
8 655 582.15 3939.65 5306.77
6 680 649.36 7702.99 938.89
5 695 682.96 10560.99 144.92
6 700 649.36 11613.65 2564.55
5 700 682.96 11613.65 290.3
5 705 682.96 12716.32 485.68
6 710 649.36 13868.99 3677.37
5 729 682.96 18705.12 2119.52
5 749 682.96 24575.79 4361.05
231 17767 17767 238983.37 87335.81
загрузка...