Множественный коэффициент корреляции и коэффициент детерминации
Множественный коэффициент корреляции
Множественный коэффициент корреляции характеризует тесноту линейной связи между одной переменной и совокупностью других рассматриваемых переменных.Особое значение имеет расчет множественного коэффициента корреляции результативного признака y с факторными x1, x2,…, xm, формула для определения которого в общем случае имеет вид
где ∑(yi-yx)2 - необъясненная (остаточная) сумма квадратов отклонений, ∑(yi-y)2 - общая сумма квадратов отклонений.
Множественный коэффициент корреляции можно найти через корреляционные матрицы:
где ∆r – определитель корреляционной матрицы; ∆11 – алгебраическое дополнение элемента ryy корреляционной матрицы.
Если рассматриваются лишь два факторных признака, то для вычисления множественного коэффициента корреляции можно использовать следующую формулу:
Построение множественного коэффициента корреляции целесообразно только в том случае, когда частные коэффициенты корреляции оказались значимыми, и связь между результативным признаком и факторами, включенными в модель, действительно существует.
Коэффициент детерминации
Общая формула:R2 = ESS/TSS=1-RSS/TSS
где ESS - объясненная сумма квадратов отклонений, RSS - необъясненная (остаточная) сумма квадратов отклонений, TSS - общая сумма квадратов отклонений (
TSS=RSS+ESS
)
Сумма квадратов остатков:
RSS=∑(yi-y(xi))2
,
где rij — парные коэффициенты корреляции между регрессорами xi и xj, a ri0 — парные коэффициенты корреляции между регрессором xi и y;
— скорректированный (нормированный) коэффициент детерминации.
Квадрат множественного коэффициента корреляции R²y|x1x2...xm≡R² называется множественным коэффициентом детерминации; он показывает, какая доля дисперсии результативного признака y объясняется влиянием факторных признаков x1, x2, …,xm. Заметим, что формула для вычисления коэффициента детерминации через соотношение остаточной и общей дисперсии результативного признака даст тот же результат.
Множественный коэффициент корреляции и коэффициент детерминации изменяются в пределах от 0 до 1. Чем ближе к 1, тем связь сильнее и, соответственно, тем точнее уравнение регрессии, построенное в дальнейшем, будет описывать зависимость y от x1, x2, …,xm. Если значение множественного коэффициента корреляции невелико (меньше 0,3), это означает, что выбранный набор факторных признаков в недостаточной мере описывает вариацию результативного признака либо связь между факторными и результативной переменными является нелинейной.
Рассчитывается множественный коэффициент корреляции с помощью калькулятора. Значимость множественного коэффициента корреляции и коэффициента детерминации проверяется с помощью критерия Фишера.
Какое из приведенных чисел может быть значением коэффициента множественной детерминации:
а) 0,4;
б) -1;
в) -2,7;
г) 2,7.
Множественный линейный коэффициент корреляции равен 0.75. Какой процент вариации зависимой переменной у учтен в модели и обусловлен влиянием факторов х1 и х2.
а) 56,2 (R2=0.752=0.5625);
б) 75,0;
в) 37,5
Индекс множественной корреляции
Для нелинейных моделей регрессии показатель корреляции называется индексом множественной корреляции. Для линейных моделей он равен коэффициенту множественной корреляции.Решение осуществляем с помощью калькулятора.
1. Оценка уравнения регрессии.
Определим вектор оценок коэффициентов регрессии. Согласно методу наименьших квадратов, вектор получается из выражения:
s = (XTX)-1XTY
Матрица X
1 | 474.61 | 428.16 |
1 | 474.3 | 441.04 |
1 | 393.93 | 371.08 |
1 | 403.87 | 412.53 |
1 | 428.61 | 534.51 |
1 | 475.37 | 583.03 |
1 | 476.57 | 600.25 |
1 | 549.98 | 612.33 |
1 | 578.39 | 618.54 |
1 | 581.06 | 579.44 |
Матрица Y
130.34 |
126.83 |
108.61 |
116.01 |
135.44 |
142.88 |
158.69 |
168.49 |
174.8 |
187.15 |
Матрица XT
1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
474.61 | 474.3 | 393.93 | 403.87 | 428.61 | 475.37 | 476.57 | 549.98 | 578.39 | 581.06 |
428.16 | 441.04 | 371.08 | 412.53 | 534.51 | 583.03 | 600.25 | 612.33 | 618.54 | 579.44 |
В матрице, (XTX) число 10, лежащее на пересечении 1-й строки и 1-го столбца, получено как сумма произведений элементов 1-й строки матрицы XT и 1-го столбца матрицы X
Умножаем матрицы, (XTY)
Находим определитель det(XTX)T = 14407342213.13
Находим обратную матрицу (XTX)-1
5.8295 | -0.0116 | -0.0002 |
-0.0116 | 0.0001 | -0 |
-0.0002 | -0 | 0 |
Уравнение регрессии (оценка уравнения регрессии)
Y = -32.2394 + 0.2412X 1 + 0.1151X 2
2. Матрица парных коэффициентов корреляции.
Число наблюдений n = 10. Число независимых переменных в модели ровно 2, а число регрессоров с учетом единичного вектора равно числу неизвестных коэффициентов. С учетом признака Y, размерность матрицы становится равным 4. Матрица, независимых переменных Х имеет размерность (10 х 4). Матрица ХT Х определяется непосредственным умножением или по следующим предварительно вычисленным суммам.
Матрица составленная из Y и X
1 | 130.34 | 474.61 | 428.16 |
1 | 126.83 | 474.3 | 441.04 |
1 | 108.61 | 393.93 | 371.08 |
1 | 116.01 | 403.87 | 412.53 |
1 | 135.44 | 428.61 | 534.51 |
1 | 142.88 | 475.37 | 583.03 |
1 | 158.69 | 476.57 | 600.25 |
1 | 168.49 | 549.98 | 612.33 |
1 | 174.8 | 578.39 | 618.54 |
1 | 187.15 | 581.06 | 579.44 |
Транспонированная матрица.
1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
130.34 | 126.83 | 108.61 | 116.01 | 135.44 | 142.88 | 158.69 | 168.49 | 174.8 | 187.15 |
474.61 | 474.3 | 393.93 | 403.87 | 428.61 | 475.37 | 476.57 | 549.98 | 578.39 | 581.06 |
428.16 | 441.04 | 371.08 | 412.53 | 534.51 | 583.03 | 600.25 | 612.33 | 618.54 | 579.44 |
10 | 1449.24 | 4836.69 | 5180.91 |
1449.24 | 216239.06 | 715766.61 | 770589.58 |
4836.69 | 715766.61 | 2379952.81 | 2548710.78 |
5180.91 | 770589.58 | 2548710.78 | 2764934.09 |
∑n | ∑y | ∑x1 | ∑x2 |
∑y | ∑y² | ∑x1·y | ∑x2·y |
∑x1 | ∑x1·y | ∑x1² | ∑x1·x2 |
∑x2 | ∑x2·y | ∑x2·x1 | ∑x2² |
Найдем парные коэффициенты корреляции.
Для y и x1
Средние значения x1 = ∑xi n = 4836.69 10 = 483.67 y = ∑yi n = 1449.24 10 = 144.92 x·y = ∑xi·yi n = 715766.66 10 = 71576.66
Дисперсия D(x1) = xi2 n - x2 = 2379952.81 10 - 483.672 = 4059.58 D(y) = yi2 n - x2 = 216239.06 10 - 144.922 = 620.94
Среднеквадратическое отклонение σ(x1) = √ D(x1) = √ 4059.58 = 63.71 σ(y) = √ D(y) = √ 620.94 = 24.92
Коэффициент корреляции rx1y = x·y - x1·y σ(x1)·σ(y) = 71576.66-483.67·144.92 63.71·24.92 = 0.9331
Для y и x2
Средние значения x2 = ∑xi n = 5180.91 10 = 518.09 x·y = ∑xi·yi n = 770589.58 10 = 77058.96
Дисперсия D(x2) = xi2 n - x2 = 2764934.09 10 - 518.092 = 8075.12
Среднеквадратическое отклонение σ(x2) = √ D(x2) = √ 8075.12 = 89.86
Коэффициент корреляции rx2y = x·y - x2·y σ(x2)·σ(y) = 77058.96-518.09·144.92 89.86·24.92 = 0.8821
Для x1 и x2
Средние значения x1·x2 = ∑x1i·x2i n = 2548710.78 10 = 254871.08
Коэффициент корреляции rx1x2 = x1·x2 - x1·x2 σ(x1)·σ(x2) = 254871.08-518.09·483.67 89.86·63.71 = 0.7487
Матрица парных коэффициентов корреляции.
- | y | x1 | x2 |
y | 1 | 0.93 | 0.88 |
x1 | 0.93 | 1 | 0.75 |
x2 | 0.88 | 0.75 | 1 |
Анализ первой строки этой матрицы позволяет произвести отбор факторных признаков, которые могут быть включены в модель множественной корреляционной зависимости. Факторные признаки, у которых ryxi < 0.5 исключают из модели.
Коллинеарность - зависимость между факторами. В качестве критерия мультиколлинеарности может быть принято соблюдение следующих неравенств:
r(xjy) > r(xkxj) ; r(xky) > r(xkxj).
Если одно из неравенств не соблюдается, то исключается тот параметр xk или xj, связь которого с результативным показателем Y оказывается наименее тесной.
3. Анализ параметров уравнения регрессии. Перейдем к статистическому анализу полученного уравнения регрессии: проверке значимости уравнения и его коэффициентов, исследованию абсолютных и относительных ошибок аппроксимации
Для несмещенной оценки дисперсии проделаем следующие вычисления:
Несмещенная ошибка e = Y - X*s (абсолютная ошибка аппроксимации)
-1.19 |
-6.11 |
3.11 |
3.34 |
2.76 |
-6.66 |
6.88 |
-2.42 |
-3.68 |
12.52 |
se2 = (Y - X*s)T(Y - X*s)
Несмещенная оценка дисперсии равна s2 = 1 n-k ·se2 = 335.1879 10-3 = 47.88
Оценка среднеквадратичного отклонения равна (Стандартная ошибка для оценки Y) σ = √ S2 = √ 47.88 = 6.92
Найдем оценку ковариационной матрицы вектора k = σ(XTX)-1 Дисперсии параметров модели определяются соотношением S2i = Kii, т.е. это элементы, лежащие на главной диагонали.
С целью расширения возможностей содержательного анализа модели регрессии используются частные коэффициенты эластичности, которые определяются по формуле:
E1 = 0.24· 483.67 144.92 = 0.81
Частные коэффициент эластичности E1 < 1. Следовательно, его влияние на результативный признак Y незначительно. E2 = 0.12· 518.09 144.92 = 0.429
Частные коэффициент эластичности E2 < 1. Следовательно, его влияние на результативный признак Y незначительно.
Индекс множественной корреляции
R > 0.9, связь между признаком Y факторами X сильная.
Коэффициент детерминации: R2 = 0.97 2 = 0.95, т.е. в 96% случаев изменения х приводят к изменению y. Другими словами - точность подбора уравнения регрессии - высокая.
Значимость коэффициента корреляции. По таблице Стьюдента находим Tтабл:
Tтабл (n-m-1;a) = (7;0.05) = 1.895
Поскольку Tнабл > Tтабл , то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициента корреляции статистически - значим.
4. Оценка значения результативного признака при заданных значениях факторов.
Y(0.0,0.0,) = -32.24 + 0.2412 * 0.0 + 0.1151 * 0.0 = -32.24
Доверительные интервалы с вероятностью 0.95 для индивидуального значения результативного признака.
S2 = X0T(XTX)-1X0
где X0T = [ 1 0.0 0.0]
(XT·X)-1
5.8295 | -0.0116 | -0.0002 |
-0.0116 | 0.0001 | -0 |
-0.0002 | -0 | 0 |
(Y - t*SY ; Y + t*SY )
(-32.24 - 1.895*16.71 ; -32.24 + 1.895*16.71)
(-63.91;-0.57)
Доверительные интервалы с вероятностью 0.95 для среднего значения результативного признака. Sy = σ· √ 1+X0·(XT·X)-1·X0 = 6.92· √ 1+5.83 = 18.08
(-32.24 - 1.895*18.08 ; -32.24 + 1.895*18.08)
(-66.5;2.02)
5. Проверка гипотез относительно коэффициентов уравнения регрессии (проверка значимости параметров множественного уравнения регрессии).
1) t-статистика
ti =
bi
Sbi
t0 =
|-32.24|
6.35
= 5.07>1.895
Статистическая значимость коэффициента регрессии b0 подтверждается.
t1 =
0.24
0.02
= 12.2857>1.895
Статистическая значимость коэффициента регрессии b1 подтверждается.
t2 =
0.12
0.01
= 8.2674>1.895
Статистическая значимость коэффициента регрессии b2 подтверждается.
Доверительный интервал для коэффициентов уравнения регрессии
Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95% будут следующими:
(bi - t i·Si; bi + ti·Si)
b0: (-44.2749;-20.2039)
b1: (0.204;0.2784)
b 2: (0.0887;0.1415)
2) F-статистика. Критерий Фишера:
F =
R2
1-R2
·
n-m-1
m
= 40.892
Fkp = 4.35. Поскольку F > Fkp, то коэффициент детерминации статистически значим и уравнение регрессии статистически надежно.