Уравнение множественной регрессии

Основная цель множественной регрессии – построить модель с большим числом факторов, определив при этом влияние каждого из них в отдельности, а также совокупное их воздействие на моделируемый показатель.

Назначение сервиса. С помощью онлайн-калькулятора можно найти следующие показатели:

  • уравнение множественной регрессии, матрица парных коэффициентов корреляции, средние коэффициенты эластичности для линейной регрессии;
  • множественный коэффициент детерминации, доверительные интервалы для индивидуального и среднего значения результативного признака;

Кроме этого проводится проверка на автокорреляцию остатков и гетероскедастичность.
Инструкция. Укажите количество данных (количество строк), количество переменных x нажмите Далее. Полученное решение сохраняется в файле Word (см. пример нахождения уравнения множественной регрессии и корреляции). Если данных много, можно вставить их из MS Excel. Для этого укажите количество переменных x нажмите Вставить из Excel (Подробнее).
Количество факторов (x) Количество строк
В данном примере количество факторов равно 3, количество строк равно 4


При вычислении параметров уравнения множественной регрессии используется матричный метод. Для множественной регрессии с двумя переменными (m = 2), можно воспользоваться методом решения системы уравнений.
Построение уравнения множественной регрессии начинается с решения вопроса о спецификации модели, который в свою очередь включает 2 круга вопросов: отбор факторов и выбор уравнения регрессии.

Отбор факторов обычно осуществляется в два этапа:

  1. теоретический анализ взаимосвязи результата и круга факторов, которые оказывают на него существенное влияние;
  2. количественная оценка взаимосвязи факторов с результатом. При линейной форме связи между признаками данный этап сводится к анализу корреляционной матрицы (матрицы парных линейных коэффициентов корреляции).
Факторы, включаемые во множественную регрессию, должны отвечать следующим требованиям:
  1. Они должны быть количественно измеримы. Если необходимо включить в модель качественный фактор, не имеющий количественного измерения, то ему нужно придать количественную определенность.
  2. Каждый фактор должен быть достаточно тесно связан с результатом (т.е. коэффициент парной линейной корреляции между фактором и результатом должен быть существенным).
  3. Факторы не должны быть сильно коррелированы друг с другом, тем более находиться в строгой функциональной связи (т.е. они не должны быть интеркоррелированы). Разновидностью интеркоррелированности факторов является мультиколлинеарность - тесная линейная связь между факторами.

Пример. Постройте регрессионную модель с 2-мя объясняющими переменными (множественная регрессия). Определите теоретическое уравнение множественной регрессии. Оцените адекватность построенной модели.
Решение.
К исходной матрице X добавим единичный столбец, получив новую матрицу X

1 5 14.5
1 12 18
1 6 12
1 7 13
1 8 14

Матрица Y
9
13
16
14
21

Транспонируем матрицу X, получаем XT:
1 1 1 1 1
5 12 6 7 8
14.5 18 12 13 14

Умножаем матрицы, XT X =
53871,5
38318563,5
71,5563,51043,25

В матрице, (XTX) число 5, лежащее на пересечении 1-й строки и 1-го столбца, получено как сумма произведений элементов 1-й строки матрицы XT и 1-го столбца матрицы X
Умножаем матрицы, XT Y =
73
563
1032,5

Находим обратную матрицу (XTX)-1
13.99 0.64 -1.3
0.64 0.1 -0.0988
-1.3 -0.0988 0.14

Вектор оценок коэффициентов регрессии равен
(XTX)-1XTY = y(x) =
13,990,64-1,3
0,640,1-0,0988
-1,3-0,09880,14
*
73
563
1032,5
=
34,66
1,97
-2,45

Получили оценку уравнения регрессии: Y = 34.66 + 1.97X1-2.45X2
Оценка значимости уравнения множественной регрессии осуществляется путем проверки гипотезы о равенстве нулю коэффициент детерминации рассчитанного по данным генеральной совокупности. Для ее проверки используют F-критерий Фишера.
R2 = 1 - s2e/∑(yi - yср)2 = 1 - 33.18/77.2 = 0.57
F = R2/(1 - R2)*(n - m -1)/m = 0.57/(1 - 0.57)*(5-2-1)/2 = 1.33
Табличное значение при степенях свободы k1 = 2 и k2 = n-m-1 = 5 - 2 -1 = 2, Fkp(2;2) = 19
Поскольку фактическое значение F = 1.33 < Fkp, то коэффициент детерминации статистически не значим, а следовательно, полученное уравнение регрессии статистически ненадежно. Это означает, что его нельзя использовать для прогноза и дальнейшего анализа.