Уравнение множественной регрессии через формулы Крамера

Двухфакторная линейная регрессия имеет вид: y=b0+b1x1+b2x2

Назначение сервиса. Данный онлайн-калькулятор позволяет вычислить следующие показатели:

  • уравнение множественной регрессии через формулы Крамера;
  • матрицу парных коэффициентов корреляции;
  • уравнение регрессии в стандартизированном масштабе;
  • средние коэффициенты эластичности для множественной регрессии;
  • доверительные интервалы для индивидуального и среднего значения результативного признака;
  • множественный коэффициент детерминации, частные критерии Fx1 и Fx2;
Количество строк (исходных данных)
В расчетах используется метод наименьших квадратов (МНК). Кроме него, при вычислении параметров уравнения множественной регрессии также можно воспользоваться матричным методом. Результат оформляется в отчете формата Word. Дополнительно создается шаблон построения множественной регрессии в Excel. см. инструкцию.
Кроме этого проводится проверка наличия предпосылок МНК:
  1. Первая предпосылка МНК – случайный характер остатков εi.;
  2. Вторая предпосылка МНК – нулевая средняя величина остатков, не зависящая от εi.;
  3. Третья предпосылка МНК - дисперсия остатков должна была гомоскедастичной.;
  4. Четвертая предпосылки МНК – отсутствие автокорреляции остатков.;
  5. Пятая предпосылка МНК - нормальное распределение остатков.;

В многофакторных моделях результативный признак зависит от нескольких факторов. Множественный или многофакторный корреляционно-регрессионный анализ решает три задачи:

  1. определяет форму связи результативного признака с факторными;
  2. выявляет тесноту этой связи;
  3. устанавливает влияние отдельных факторов.

Пример. По 20 предприятиям региона изучается зависимость выработки продукции на одного работника Y (тыс. руб.) от ввода в действие новых основных фондов x1(% от стоимости фондов на конец года) и от удельного веса рабочих высокой квалификации в общей численности рабочих x2(%).
Требуется:

  1. Построить линейную модель множественной регрессии. Записать стандартизированное уравнение множественной регрессии. На основе стандартизированных коэффициентов регрессии и средних коэффициентов эластичности ранжировать факторы по степени их влияния на результат.
  2. Найти коэффициенты парной, частной и множественной корреляции. Проанализировать их.
  3. Найти скорректированный коэффициенты парной, частной и множественной детерминации. Сравнить его с нескорректированным (общим) коэффициентом детерминации.
  4. С помощью F- критерия Фишера оценить статистическую надежность уравнения регрессии и коэффициента детерминации R2.
  5. С помощью частных F- критериев Фишера оценить целесообразность включения в уравнение множественной регрессии фактора x1 после x2 и фактора x2 после x1.
  6. Составить уравнение линейной парной регрессии, оставив лишь один значащий фактор.

Исходные данные (таблица 2.1)

Номер предприятия

y

x1

x2

1

7

3,5

9

2

7

3,6

10

3

7

3,9

12

4

7

4,1

17

5

8

4,2

18

6

8

4,5

19

7

9

5,3

19

8

9

5,5

20

9

10

5,6

21

10

10

6,1

21

11

10

6,3

22

12

10

6,5

22

13

11

7,2

24

14

12

7,5

25

15

12

7,9

27

16

13

8,2

30

17

13

8,4

31

18

14

8,6

33

19

14

9,5

35

20

15

9,6

36

Решение.
1. Построить линейную модель множественной регрессии. Записать стандартизированное уравнение множественной регрессии. На основе стандартизированных коэффициентов регрессии и средних коэффициентов эластичности ранжировать факторы по степени их влияния на результат.
Система трех линейных уравнений с тремя неизвестными b0, b1, b2:
∑yi = nb0 + b1∑x1i + b2∑x2i
∑x1iyi = b0∑x1i + b1∑x1i2 + b2∑x1ix2i
∑x2iyi = b0∑x2i + b1∑x1ix2i + b2∑x2i2

Y X1 X2 X12 X22 X1Y X2Y X1X2 Y2
7 3.5 9 12.25 81 24.5 63 31.5 49
7 3.6 10 12.96 100 25.2 70 36 49
7 3.9 12 15.21 144 27.3 84 46.8 49
7 4.1 17 16.81 289 28.7 119 69.7 49
8 4.2 18 17.64 324 33.6 144 75.6 64
8 4.5 19 20.25 361 36 152 85.5 64
9 5.3 19 28.09 361 47.7 171 100.7 81
9 5.5 20 30.25 400 49.5 180 110 81
10 5.6 21 31.36 441 56 210 117.6 100
10 6.1 21 37.21 441 61 210 128.1 100
10 6.3 22 39.69 484 63 220 138.6 100
10 6.5 22 42.25 484 65 220 143 100
11 7.2 24 51.84 576 79.2 264 172.8 121
12 7.5 25 56.25 625 90 300 187.5 144
12 7.9 27 62.41 729 94.8 324 213.3 144
13 8.2 30 67.24 900 106.6 390 246 169
13 8.4 31 70.56 961 109.2 403 260.4 169
14 8.6 33 73.96 1089 120.4 462 283.8 196
14 9.5 35 90.25 1225 133 490 332.5 196
15 9.6 36 92.16 1296 144 540 345.6 225
206 126 451 868.64 11311 1394.7 5016 3125 2250
10.3 6.3 22.55 43.43 565.55 69.74 250.8 156.25 112.5

Для наших данных система уравнений имеет вид:
206 = 20 b0 + 126b1 + 451b2
1394.7 = 126b0 + 868.64b1 + 3125b2
5016 = 451b0 + 3125b1 + 11311b2

Решая систему методом Крамера, находим:
b0 = 2.212; b1 = 1.099; b2 = 0.0515
Уравнение регрессии: Y = 2.212 + 1.099 X1 + 0.0515 X2
Расчет β-коэффициентов можно выполнить и по формулам:

Стандартизированная форма уравнения регрессии имеет вид:
y0 = 0.84x1 + 0.154x2
Частные коэффициенты эластичности.
С целью расширения возможностей содержательного анализа модели регрессии используются частные коэффициенты эластичности, которые определяются по формуле:

Частный коэффициент эластичности показывает, насколько процентов в среднем изменяется признак-результат у с увеличением признака-фактора хj на 1% от своего среднего уровня при фиксированном положении других факторов модели.

Частный коэффициент эластичности |E1| < 1. Следовательно, его влияние на результативный признак Y незначительно.

Частный коэффициент эластичности |E2| < 1. Следовательно, его влияние на результативный признак Y незначительно.

2. Найти коэффициенты парной, частной и множественной корреляции. Проанализировать их.
Для расчета составим следующую таблицу:

Y X1 X2 (Yi-Yср)2 (X1i-X1ср)2 (X2i-X2ср)2 (Yi-Yср)(X1i-X1ср) (Yi-Yср)(X2i-X2ср) (X1i-X1ср)(X2i-X2ср)
7 3.5 9 10.89 7.84 183.6 9.24 44.72 37.94
7 3.6 10 10.89 7.29 157.5 8.91 41.42 33.89
7 3.9 12 10.89 5.76 111.3 7.92 34.82 25.32
7 4.1 17 10.89 4.84 30.8 7.26 18.32 12.21
8 4.2 18 5.29 4.41 20.7 4.83 10.47 9.56
8 4.5 19 5.29 3.24 12.6 4.14 8.17 6.39
9 5.3 19 1.69 1 12.6 1.3 4.62 3.55
9 5.5 20 1.69 0.64 6.5 1.04 3.32 2.04
10 5.6 21 0.09 0.49 2.4 0.21 0.47 1.09
10 6.1 21 0.09 0.04 2.4 0.06 0.47 0.31
10 6.3 22 0.09 0 0.3 0 0.17 0
10 6.5 22 0.09 0.04 0.3 -0.06 0.17 -0.11
11 7.2 24 0.49 0.81 2.1 0.63 1.02 1.31
12 7.5 25 2.89 1.44 6 2.04 4.17 2.94
12 7.9 27 2.89 2.56 19.8 2.72 7.57 7.12
13 8.2 30 7.29 3.61 55.5 5.13 20.12 14.16
13 8.4 31 7.29 4.41 71.4 5.67 22.82 17.75
14 8.6 33 13.69 5.29 109.2 8.51 38.67 24.04
14 9.5 35 13.69 10.24 155 11.84 46.07 39.84
15 9.6 36 22.09 10.89 180.9 15.51 63.22 44.39
206 126 451 128.2 74.84 1140.95 96.9 370.7 283.7
10.3 6.3 22.55 6.41 3.74 57.05 4.85 18.54 14.19

Для y и x1
Средние значения

Дисперсия

Среднеквадратическое отклонение

Коэффициент корреляции

Для y и x2
Средние значения

Дисперсия

Среднеквадратическое отклонение

Коэффициент корреляции

Для x1 и x2
Средние значения

Дисперсия

Среднеквадратическое отклонение

Коэффициент корреляции

Матрица парных коэффициентов корреляции.

- y x1 x2
y 1 0.989 0.969
x1 0.989 1 0.971
x2 0.969 0.971 1

Коэффициенты регрессии bi можно также найти по следующим формулам:

где ryx1, ryx2, rx1x2 - коэффициенты парной корреляции между результатом и каждым из факторов и между факторами; s(x1), s(x2) - среднее квадратическое отклонение 1-го и 2-го факторов соответственно; s(y) - среднее квадратическое отклонение результативного признака.
Параметр a можно определить по формуле:

Наибольшее влияние на результативный признак оказывает фактор x1 (r = 0.99), значит, при построении модели он войдет в регрессионное уравнение первым.
На основании частных коэффициентов можно сделать вывод об обоснованности включения переменных в регрессионную модель. Если значение коэффициента мало или он незначим, то это означает, что связь между данным фактором и результативной переменной либо очень слаба, либо вовсе отсутствует, поэтому фактор можно исключить из модели.

Теснота связи сильная


Теснота связи низкая.

Теснота связи не сильная

Множественный коэффициент корреляции.
Расчёт коэффициента корреляции выполним, используя известные значения линейных коэффициентов парной корреляции и β-коэффициентов.

Коэффициент множественной корреляции определить через матрицу парных коэффициентов корреляции:

где Δr - определитель матрицы парных коэффициентов корреляции; Δr11 - определитель матрицы межфакторной корреляции.

Коэффициент множественной корреляции

Аналогичный результат получим при использовании других формул:

Связь между признаком Y и факторами Xi низкая.
Коэффициент детерминации: R2 = 0.98
Таким образом, наибольшее влияние на результат оказывает x1 (β=0,84 > 0,154; E = 0,67 > 0,11).

3. Найти скорректированный коэффициенты парной, частной и множественной детерминации. Сравнить его с нескорректированным (общим) коэффициентом детерминации.
Более объективной оценкой является скорректированный коэффициент детерминации:


Добавление в модель новых объясняющих переменных осуществляется до тех пор, пока растет скорректированный коэффициент детерминации.

4. С помощью F- критерия Фишера оценить статистическую надежность уравнения регрессии и коэффициента детерминации .
Чем ближе этот коэффициент к единице, тем больше уравнение регрессии объясняет поведение Y.
Проверим гипотезу об общей значимости - гипотезу об одновременном равенстве нулю всех коэффициентов регрессии при объясняющих переменных:
H0: R2 = 0; β1 = β2 = ... = βm = 0.
H1: R2 ≠ 0.
Проверка этой гипотезы осуществляется с помощью F-статистики распределения Фишера (правосторонняя проверка).
Если F < Fkp = Fα ; n-m-1, то нет оснований для отклонения гипотезы H0.

Табличное значение при степенях свободы k1 = 2 и k2 = n-m-1 = 20 - 2 - 1 = 17, Fkp(2;17) = 3.59
Поскольку фактическое значение F > Fkp, то коэффициент детерминации статистически значим и уравнение регрессии статистически надежно

5. С помощью частных F- критериев Фишера оценить целесообразность включения в уравнение множественной регрессии фактора x1 после x2 и фактора x2 после x1.
Частные критерии Fx1 и Fx2 оценивают статистическую значимость включения факторов x1 и x2 в уравнение множественной регрессии и целесообразность включения в уравнение одного фактора после другого, т.е. Fx1 оценивает целесообразность включения в уравнение x1 после включения в него фактора x2.
Соответственно Fx2 указывает на целесообразность включения в модель фактора x2 после включения фактора x1.

Найдем ryx21, ryx22.
ryx12 = 0.9892 = 0.979
ryx22 = 0.9692 = 0.939

Поскольку фактическое значение F > Fkp, то коэффициент Fx1 статистически значим, т.е. целесообразно включать в уравнение x1 после включения в него фактора x2. Прирост факторной дисперсии за счет дополнительного фактора x1 является существенным.

Поскольку фактическое значение F < Fkp, то коэффициент Fx2 статистически не значим, т.е. не целесообразно включать в уравнение x2 после включения в него фактора x1.

6. Составить уравнение линейной парной регрессии, оставив лишь один значащий фактор.
Значащий фактор x1. Строим уравнение парной регрессии y = bx1 + b0.
Для расчета параметров регрессии построим расчетную таблицу (табл. 1)

x y x2 y2 x • y
3.5 7 12.25 49 24.5
3.6 7 12.96 49 25.2
3.9 7 15.21 49 27.3
4.1 7 16.81 49 28.7
4.2 8 17.64 64 33.6
4.5 8 20.25 64 36
5.3 9 28.09 81 47.7
5.5 9 30.25 81 49.5
5.6 10 31.36 100 56
6.1 10 37.21 100 61
6.3 10 39.69 100 63
6.5 10 42.25 100 65
7.2 11 51.84 121 79.2
7.5 12 56.25 144 90
7.9 12 62.41 144 94.8
8.2 13 67.24 169 106.6
8.4 13 70.56 169 109.2
8.6 14 73.96 196 120.4
9.5 14 90.25 196 133
9.6 15 92.16 225 144
126 206 868.64 2250 1394.7

Для наших данных система уравнений имеет вид
20a + 126 b = 206
126 a + 868.64 b = 1394.7

Домножим уравнение (1) системы на (-6.3), получим систему, которую решим методом алгебраического сложения.
-126a -793.8 b = -1297.8
126 a + 868.64 b = 1394.7
Получаем:
74.84 b = 96.9
Откуда b = 1.2948
Теперь найдем коэффициент «a» из уравнения (1):
20a + 126 b = 206
20a + 126 • 1.2948 = 206
20a = 42.86
a = 2.143
Получаем эмпирические коэффициенты регрессии: b = 1.2948, a = 2.143
Уравнение регрессии (эмпирическое уравнение регрессии): y = 1.2948 x + 2.143

загрузка...