Построить график функции Точки разрыва функции Построение графика методом дифференциального исчисления Упростить выражение
Примеры решений Коэффициент Спирмена Мультиколлинеарность
Линейная регрессия Коэффициент детерминации Частные F-критерии
Частные коэффициенты эластичности Проверка на автокорреляцию

Множественный коэффициент корреляции и коэффициент детерминации

Множественный коэффициент корреляции

Множественный коэффициент корреляции характеризует тесноту линейной связи между одной переменной и совокупностью других рассматриваемых переменных.
Особое значение имеет расчет множественного коэффициента корреляции результативного признака y с факторными x1, x2,…, xm, формула для определения которого в общем случае имеет вид
индекс множественной корреляции

где ∑(yi-yx)2 - необъясненная (остаточная) сумма квадратов отклонений, ∑(yi-y)2 - общая сумма квадратов отклонений.
Множественный коэффициент корреляции можно найти через корреляционные матрицы:

где ∆r – определитель корреляционной матрицы; ∆11алгебраическое дополнение элемента ryy корреляционной матрицы.
Если рассматриваются лишь два факторных признака, то для вычисления множественного коэффициента корреляции можно использовать следующую формулу:

Построение множественного коэффициента корреляции целесообразно только в том случае, когда частные коэффициенты корреляции оказались значимыми, и связь между результативным признаком и факторами, включенными в модель, действительно существует.

Коэффициент детерминации

Общая формула: R2 = RSS/TSS=1-ESS/TSS
где RSS - объясненная сумма квадратов отклонений, ESS - необъясненная (остаточная) сумма квадратов отклонений, TSS - общая сумма квадратов отклонений (TSS=RSS+ESS)

Расчет коэффициента детерминации через определитель,
где rij — парные коэффициенты корреляции между регрессорами xi и xj, a ri0 — парные коэффициенты корреляции между регрессором xi и y;
— скорректированный (нормированный) коэффициент детерминации.

Квадрат множественного коэффициента корреляции R²y|x1x2...xm≡R² называется множественным коэффициентом детерминации; он показывает, какая доля дисперсии результативного признака y объясняется влиянием факторных признаков x1, x2, …,xm. Заметим, что формула для вычисления коэффициента детерминации через соотношение остаточной и общей дисперсии результативного признака даст тот же результат.
Множественный коэффициент корреляции и коэффициент детерминации изменяются в пределах от 0 до 1. Чем ближе к 1, тем связь сильнее и, соответственно, тем точнее уравнение регрессии, построенное в дальнейшем, будет описывать зависимость y от x1, x2, …,xm. Если значение множественного коэффициента корреляции невелико (меньше 0,3), это означает, что выбранный набор факторных признаков в недостаточной мере описывает вариацию результативного признака либо связь между факторными и результативной переменными является нелинейной.

Рассчитывается множественный коэффициент корреляции с помощью калькулятора. Значимость множественного коэффициента корреляции и коэффициента детерминации проверяется с помощью критерия Фишера.

Какое из приведенных чисел может быть значением коэффициента множественной детерминации:
а) 0,4;
б) -1;
в) -2,7;
г) 2,7.

Множественный линейный коэффициент корреляции равен 0.75. Какой процент вариации зависимой переменной у учтен в модели и обусловлен влиянием факторов х1 и х2.
а) 56,2 (R2=0.752=0.5625);
б) 75,0;
в) 37,5

Индекс множественной корреляции

Для нелинейных моделей регрессии показатель корреляции называется индексом множественной корреляции. Для линейных моделей он равен коэффициенту множественной корреляции.
Решение осуществляем с помощью калькулятора.


1. Оценка уравнения регрессии.
Определим вектор оценок коэффициентов регрессии. Согласно методу наименьших квадратов, вектор получается из выражения:
 s = (XTX)-1XTY
 Матрица X

1 474.61 428.16
1 474.3 441.04
1 393.93 371.08
1 403.87 412.53
1 428.61 534.51
1 475.37 583.03
1 476.57 600.25
1 549.98 612.33
1 578.39 618.54
1 581.06 579.44

Матрица Y
130.34
126.83
108.61
116.01
135.44
142.88
158.69
168.49
174.8
187.15

Матрица XT
1 1 1 1 1 1 1 1 1 1
474.61 474.3 393.93 403.87 428.61 475.37 476.57 549.98 578.39 581.06
428.16 441.04 371.08 412.53 534.51 583.03 600.25 612.33 618.54 579.44
Умножаем матрицы, (XTX)

В матрице, (XTX) число 10, лежащее на пересечении 1-й строки и 1-го столбца, получено как сумма произведений элементов 1-й строки матрицы XT и 1-го столбца матрицы X
Умножаем матрицы, (XTY)

Находим определитель det(XTX)T = 14407342213.13
Находим обратную матрицу (XTX)-1
5.8295 -0.0116 -0.0002
-0.0116 0.0001 -0
-0.0002 -0 0

Уравнение регрессии (оценка уравнения регрессии)
Y = -32.2394 + 0.2412X 1 + 0.1151X 2
2. Матрица парных коэффициентов корреляции.
Число наблюдений n = 10. Число независимых переменных в модели ровно 2, а число регрессоров с учетом единичного вектора равно числу неизвестных коэффициентов. С учетом признака Y, размерность матрицы становится равным 4. Матрица, независимых переменных Х имеет размерность (10 х 4). Матрица ХT Х определяется непосредственным умножением или по следующим предварительно вычисленным суммам.
Матрица составленная из Y и X

1 130.34 474.61 428.16
1 126.83 474.3 441.04
1 108.61 393.93 371.08
1 116.01 403.87 412.53
1 135.44 428.61 534.51
1 142.88 475.37 583.03
1 158.69 476.57 600.25
1 168.49 549.98 612.33
1 174.8 578.39 618.54
1 187.15 581.06 579.44

Транспонированная матрица.
1 1 1 1 1 1 1 1 1 1
130.34 126.83 108.61 116.01 135.44 142.88 158.69 168.49 174.8 187.15
474.61 474.3 393.93 403.87 428.61 475.37 476.57 549.98 578.39 581.06
428.16 441.04 371.08 412.53 534.51 583.03 600.25 612.33 618.54 579.44
Матрица ATA.
10 1449.24 4836.69 5180.91
1449.24 216239.06 715766.61 770589.58
4836.69 715766.61 2379952.81 2548710.78
5180.91 770589.58 2548710.78 2764934.09
Полученная матрица имеет следующее соответствие:
∑n ∑y ∑x1 ∑x2
∑y ∑y² ∑x1·y ∑x2·y
∑x1 ∑x1·y ∑x1² ∑x1·x2
∑x2 ∑x2·y ∑x2·x1 ∑x2²

Найдем парные коэффициенты корреляции.
Для y и x1
Уравнение имеет вид y = ax + b
Средние значения



Дисперсия


Среднеквадратическое отклонение


Коэффициент корреляции

Для y и x2
Уравнение имеет вид y = ax + b
Средние значения



Дисперсия


Среднеквадратическое отклонение


Коэффициент корреляции

Для x1 и x2
Уравнение имеет вид y = ax + b
Средние значения



Дисперсия


Среднеквадратическое отклонение


Коэффициент корреляции

Матрица парных коэффициентов корреляции.
- y x1 x2
y 1 0.93 0.88
x1 0.93 1 0.75
x2 0.88 0.75 1

Анализ первой строки этой матрицы позволяет произвести отбор факторных признаков, которые могут быть включены в модель множественной корреляционной зависимости. Факторные признаки, у которых ryxi < 0.5 исключают из модели.
Коллинеарность - зависимость между факторами. В качестве критерия мультиколлинеарности может быть принято соблюдение следующих неравенств:
r(xjy) > r(xkxj) ; r(xky) > r(xkxj).
Если одно из неравенств не соблюдается, то исключается тот параметр xk или xj, связь которого с результативным показателем Y оказывается наименее тесной.

3. Анализ параметров уравнения регрессии. Перейдем к статистическому анализу полученного уравнения регрессии: проверке значимости уравнения и его коэффициентов, исследованию абсолютных и относительных ошибок аппроксимации
Для несмещенной оценки дисперсии проделаем следующие вычисления:
Несмещенная ошибка e = Y - X*s (абсолютная ошибка аппроксимации)

-1.19
-6.11
3.11
3.34
2.76
-6.66
6.88
-2.42
-3.68
12.52

se2 = (Y - X*s)T(Y - X*s)
Несмещенная оценка дисперсии равна

Оценка среднеквадратичного отклонения равна (Стандартная ошибка для оценки Y)

Найдем оценку ковариационной матрицы вектора k = σo(XTX)-1

Дисперсии параметров модели определяются соотношением S2i = Kii, т.е. это элементы, лежащие на главной диагонали
С целью расширения возможностей содержательного анализа модели регрессии используются частные коэффициенты эластичности, которые определяются по формуле


Частные коэффициент эластичности E1 < 1. Следовательно, его влияние на результативный признак Y незначительно.

Частные коэффициент эластичности E2 < 1. Следовательно, его влияние на результативный признак Y незначительно.

Индекс множественной корреляции

индекс множественной корреляции
R > 0.9, связь между признаком Y факторами X сильная.
Коэффициент детерминации: R2 = 0.97 2 = 0.95, т.е. в 96% случаев изменения х приводят к изменению y. Другими словами - точность подбора уравнения регрессии - высокая.
Значимость коэффициента корреляции.

По таблице Стьюдента находим Tтабл
Tтабл (n-m-1;a) = (7;0.05) = 1.895
Поскольку Tнабл > Tтабл , то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициента корреляции статистически - значим.

4. Оценка значения результативного признака при заданных значениях факторов.
Y(0.0,0.0,) = -32.24 + 0.2412 * 0.0 + 0.1151 * 0.0 = -32.24
Доверительные интервалы с вероятностью 0.95 для индивидуального значения результативного признака.
S2 = X0T(XTX)-1X0
где X0T = [ 1 0.0 0.0]
(XTX)-1

5.8295 -0.0116 -0.0002
-0.0116 0.0001 -0
-0.0002 -0 0
S2 = 5.83

(Y - t*SY ; Y + t*SY )
(-32.24 - 1.895*16.71 ; -32.24 + 1.895*16.71)
(-63.91;-0.57)
Доверительные интервалы с вероятностью 0.95 для среднего значения результативного признака.

(-32.24 - 1.895*18.08 ; -32.24 + 1.895*18.08)
(-66.5;2.02)

5. Проверка гипотез относительно коэффициентов уравнения регрессии (проверка значимости параметров множественного уравнения регрессии).
1) t-статистика


Статистическая значимость коэффициента регрессии b0 подтверждается

Статистическая значимость коэффициента регрессии b1 подтверждается

Статистическая значимость коэффициента регрессии b2 подтверждается
Доверительный интервал для коэффициентов уравнения регрессии
Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95% будут следующими:
(bi - t i Si; bi + t i S i)
b 0: (-44.2749;-20.2039)
b 1: (0.204;0.2784)
b 2: (0.0887;0.1415)
2) F-статистика. Критерий Фишера


Fkp = 4.35
Поскольку F > Fkp, то коэффициент детерминации статистически значим и уравнение регрессии статистически надежно

6. Проверка на наличие гетероскедастичности методом графического анализа остатков. В этом случае по оси абсцисс откладываются значения объясняющей переменной Xi, а по оси ординат квадраты отклонения ei2.

y y(x) e=y-y(x) e2
130.34 131.53 -1.19 1.43
126.83 132.94 -6.11 37.35
108.61 105.5 3.11 9.67
116.01 112.67 3.34 11.16
135.44 132.68 2.76 7.63
142.88 149.54 -6.66 44.39
158.69 151.81 6.88 47.28
168.49 170.91 -2.42 5.87
174.8 178.48 -3.68 13.56
187.15 174.63 12.52 156.86