Пример. Индекс множественной корреляции

Для нелинейных моделей регрессии показатель корреляции называется индексом множественной корреляции. Для линейных моделей он равен коэффициенту множественной корреляции.
Решение осуществляем с помощью калькулятора.
1. Оценка уравнения регрессии.
Определим вектор оценок коэффициентов регрессии. Согласно методу наименьших квадратов, вектор получается из выражения:
 s = (XTX)-1XTY
 Матрица X
1 474.61 428.16
1 474.3 441.04
1 393.93 371.08
1 403.87 412.53
1 428.61 534.51
1 475.37 583.03
1 476.57 600.25
1 549.98 612.33
1 578.39 618.54
1 581.06 579.44

Матрица Y
130.34
126.83
108.61
116.01
135.44
142.88
158.69
168.49
174.8
187.15

Матрица XT

1 1 1 1 1 1 1 1 1 1
474.61 474.3 393.93 403.87 428.61 475.37 476.57 549.98 578.39 581.06
428.16 441.04 371.08 412.53 534.51 583.03 600.25 612.33 618.54 579.44

Умножаем матрицы, (XTX)

В матрице, (XTX) число 10, лежащее на пересечении 1-й строки и 1-го столбца, получено как сумма произведений элементов 1-й строки матрицы XT и 1-го столбца матрицы X
Умножаем матрицы, (XTY)

Находим определитель det(XTX)T = 14407342213.13
Находим обратную матрицу (XTX)-1

5.8295 -0.0116 -0.0002
-0.0116 0.0001 -0
-0.0002 -0 0

Вектор оценок коэффициентов регрессии равен
s = (XTX)-1XTY =

Уравнение регрессии (оценка уравнения регрессии)
Y = -32.2394 + 0.2412X 1 + 0.1151X 2
2. Матрица парных коэффициентов корреляции.
Число наблюдений n = 10. Число независимых переменных в модели ровно 2, а число регрессоров с учетом единичного вектора равно числу неизвестных коэффициентов. С учетом признака Y, размерность матрицы становится равным 4. Матрица, независимых переменных Х имеет размерность (10 х 4). Матрица ХT Х определяется непосредственным умножением или по следующим предварительно вычисленным суммам.
Матрица составленная из Y и X

1 130.34 474.61 428.16
1 126.83 474.3 441.04
1 108.61 393.93 371.08
1 116.01 403.87 412.53
1 135.44 428.61 534.51
1 142.88 475.37 583.03
1 158.69 476.57 600.25
1 168.49 549.98 612.33
1 174.8 578.39 618.54
1 187.15 581.06 579.44

Транспонированная матрица.

1 1 1 1 1 1 1 1 1 1
130.34 126.83 108.61 116.01 135.44 142.88 158.69 168.49 174.8 187.15
474.61 474.3 393.93 403.87 428.61 475.37 476.57 549.98 578.39 581.06
428.16 441.04 371.08 412.53 534.51 583.03 600.25 612.33 618.54 579.44

Матрица ATA.

10 1449.24 4836.69 5180.91
1449.24 216239.06 715766.61 770589.58
4836.69 715766.61 2379952.81 2548710.78
5180.91 770589.58 2548710.78 2764934.09

Полученная матрица имеет следующее соответствие:


Найдем парные коэффициенты корреляции.
Для y и x1
Уравнение имеет вид y = ax + b
Средние значения



Дисперсия


Среднеквадратическое отклонение


Коэффициент корреляции

Для y и x2
Уравнение имеет вид y = ax + b
Средние значения



Дисперсия


Среднеквадратическое отклонение


Коэффициент корреляции

Для x1 и x2
Уравнение имеет вид y = ax + b
Средние значения



Дисперсия


Среднеквадратическое отклонение


Коэффициент корреляции

Матрица парных коэффициентов корреляции.
- y x1 x2
y 1 0.93 0.88
x1 0.93 1 0.75
x2 0.88 0.75 1

Анализ первой строки этой матрицы позволяет произвести отбор факторных признаков, которые могут быть включены в модель множественной корреляционной зависимости. Факторные признаки, у которых ryxi < 0.5 исключают из модели.
Коллинеарность - зависимость между факторами. В качестве критерия мультиколлинеарности может быть принято соблюдение следующих неравенств:
r(xjy) > r(xkxj) ; r(xky) > r(xkxj).
Если одно из неравенств не соблюдается, то исключается тот параметр xk или xj, связь которого с результативным показателем Y оказывается наименее тесной.

3. Анализ параметров уравнения регрессии. Перейдем к статистическому анализу полученного уравнения регрессии: проверке значимости уравнения и его коэффициентов, исследованию абсолютных и относительных ошибок аппроксимации
Для несмещенной оценки дисперсии проделаем следующие вычисления:
Несмещенная ошибка e = Y - X*s (абсолютная ошибка аппроксимации)

-1.19
-6.11
3.11
3.34
2.76
-6.66
6.88
-2.42
-3.68
12.52

se2 = (Y - X*s)T(Y - X*s)
Несмещенная оценка дисперсии равна

Оценка среднеквадратичного отклонения равна (Стандартная ошибка для оценки Y)

Найдем оценку ковариационной матрицы вектора k = σo(XTX)-1

Дисперсии параметров модели определяются соотношением S 2i = Kii, т.е. это элементы, лежащие на главной диагонали
С целью расширения возможностей содержательного анализа модели регрессии используются частные коэффициенты эластичности, которые определяются по формуле


Частные коэффициент эластичности E1 < 1. Следовательно, его влияние на результативный признак Y незначительно.

Частные коэффициент эластичности E2 < 1. Следовательно, его влияние на результативный признак Y незначительно.

Индекс множественной корреляции

Тесноту совместного влияния факторов на результат оценивает индекс множественной корреляции (от 0 до 1)
индекс множественной корреляции


Связь между признаком Y факторами X сильная
Коэффициент детерминации
R 2= 0.97 2 = 0.95
т.е. в 94.6019 % случаев изменения х приводят к изменению y. Другими словами - точность подбора уравнения регрессии - высокая.
Значимость коэффициента корреляции.

По таблице Стьюдента находим Tтабл
Tтабл (n-m-1;a) = (7;0.05) = 1.895
Поскольку Tнабл > Tтабл , то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициента корреляции статистически - значим.

4. Оценка значения результативного признака при заданных значениях факторов.
Y(0.0,0.0,) = -32.24 + 0.2412 * 0.0 + 0.1151 * 0.0 = -32.24
Доверительные интервалы с вероятностью 0.95 для индивидуального значения результативного признака.
S2 = X0T(XTX)-1X0
где
X0T = [ 1 0.0 0.0]
(XTX)-1

5.8295 -0.0116 -0.0002
-0.0116 0.0001 -0
-0.0002 -0 0

X0

1
0
0

S2 = 5.83

(Y - t*SY ; Y + t*SY )
(-32.24 - 1.895*16.71 ; -32.24 + 1.895*16.71)
(-63.91;-0.57)
Доверительные интервалы с вероятностью 0.95 для среднего значения результативного признака.

(-32.24 - 1.895*18.08 ; -32.24 + 1.895*18.08)
(-66.5;2.02)

5. Проверка гипотез относительно коэффициентов уравнения регрессии (проверка значимости параметров множественного уравнения регрессии).
1) t-статистика


Статистическая значимость коэффициента регрессии b0 подтверждается

Статистическая значимость коэффициента регрессии b1 подтверждается

Статистическая значимость коэффициента регрессии b2 подтверждается
Доверительный интервал для коэффициентов уравнения регрессии
Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95% будут следующими:
(bi - t i S i; bi + t i S i)
b 0: (-44.2749;-20.2039)
b 1: (0.204;0.2784)
b 2: (0.0887;0.1415)
2) F-статистика. Критерий Фишера


Fkp = 4.35
Поскольку F > Fkp, то коэффициент детерминации статистически значим и уравнение регрессии статистически надежно

6. Проверка на наличие гетероскедастичности методом графического анализа остатков. В этом случае по оси абсцисс откладываются значения объясняющей переменной Xi, а по оси ординат квадраты отклонения ei2.

y y(x) e=y-y(x) e2
130.34 131.53 -1.19 1.43
126.83 132.94 -6.11 37.35
108.61 105.5 3.11 9.67
116.01 112.67 3.34 11.16
135.44 132.68 2.76 7.63
142.88 149.54 -6.66 44.39
158.69 151.81 6.88 47.28
168.49 170.91 -2.42 5.87
174.8 178.48 -3.68 13.56
187.15 174.63 12.52 156.86
загрузка...