Метод наименьших квадратов

Метод наименьших квадратов позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака y от расчетных y(x) минимальна: ∑(y - y_x)² → min
Система нормальных уравнений для линейной регрессии:

Система нормальных уравнений для линейной регрессии

Пример №1. Функция задана таблицей

X	-2	-1	0	1	2
Y	3.1	1.7	0.9	0.7	1.05

Применяя метод наименьших квадратов, приблизить ее многочленами 1-й и 2-й степени. Для каждого приближения определить величину среднеквадратичной погрешности, построить график.

Рекомендации к решению. На первом шаге в калькуляторе необходимо выбрать Вид сглаживани: по прямой. Чтобы получить приближение 2-й степени необходимо выбрать Вид сглаживани: по параболе.

Пример №2. По 10 парам наблюдений получены следующие результаты: ∑x_i = 100; ∑y_i = 200; ∑x_iy_i = 21000; ∑y_i² = 12000; ∑y_i² = 45000. По МНК оцените коэффициенты линейных уравнений регрессии Y на X и X на Y. Оцените коэффициент корреляции и детерминации. Проинтерпретируйте результаты.
Решение.

Уравнение регрессии X на Y: y = a + bx
Найдем средние значения.
x^– = 100/10 = 10; y^– = 200/10 = 20; xy^– = 21000/10 = 2100;
b = (2100-10×20)/(12000/10-10²) = 1.727
a = 20 – 1.727×10 = 2.727
y = 2.727 + 1.727x

Уравнение регрессии Y на X: x = a + by = (y-2.727)/1.727 = 0,579x – 1.579
Дисперсии
σ_x² = 12000/10 – 10² = 1100
σ_y² = 45000/10 – 20² = 4100
Среднеквадратические отклонения
σ_x = (1100)^1/2 = 33.17
σ_y = (4100)^1/2 = 64.03

Коэффициент корреляции r_xy = b σ_x/σ_y = 1.727×33.17/64.03 = 0.895
Коэффициент детерминации: R² = 0,895² = 0.8. Следовательно, в 80% случаев изменения х приводят к изменению y. Другими словами, точность подбора уравнения регрессии - высокая.

Пример №3. В задачах результаты измерений величин x и y даются таблицей. Предполагая, что между переменными x и y существует линейная функциональная зависимость y = ax + b, найти, пользуясь способом наименьших квадратов эту функцию. Вычислить с помощью полученной формулы приближенные значения y при x = 2.5 и x=6.

Сглаживание ряда методом наименьших квадратов

Задание.
1. Постройте прогноз численности наличного населения города Б на 2010-2011 гг., используя методы: скользящей средней, экспоненциального сглаживания, наименьших квадратов.
2. Постройте график фактического и расчетных показателей.
3. Рассчитайте ошибки полученных прогнозов при использовании каждого метода.
4. Сравните полученные результаты, сделайте вывод.

Решение.
1. Находим параметры уравнения методом наименьших квадратов. Линейное уравнение тренда имеет вид y = bt + a
Система уравнений МНК:
a₀n + a₁∑t = ∑y
a₀∑t + a₁∑t² = ∑y•t

t	y	t²	y²	t•y
1	58.8	1	3457.44	58.8
2	58.7	4	3445.69	117.4
3	59	9	3481	177
4	59	16	3481	236
5	58.8	25	3457.44	294
6	58.3	36	3398.89	349.8
7	57.9	49	3352.41	405.3
8	57.5	64	3306.25	460
9	56.9	81	3237.61	512.1
45	524.9	285	30617.73	2610.4

Для наших данных система уравнений имеет вид:
9a₀ + 45a₁ = 524.9
45a₀ + 285a₁ = 2610.4
Из первого уравнения выражаем а₀ и подставим во второе уравнение
Получаем a₀ = -0.24, a₁ = 59.5
Уравнение тренда:
y = -0.24 t + 59.5
Эмпирические коэффициенты тренда a и b являются лишь оценками теоретических коэффициентов β_i, а само уравнение отражает лишь общую тенденцию в поведении рассматриваемых переменных.
Коэффициент тренда b = -0.24 показывает среднее изменение результативного показателя (в единицах измерения у) с изменением периода времени t на единицу его измерения. В данном примере с увеличением t на 1 единицу, y изменится в среднем на -0.24.
Ошибка аппроксимации.
Оценим качество уравнения тренда с помощью ошибки абсолютной аппроксимации.

Ошибка аппроксимации в пределах 5%-7% свидетельствует о хорошем подборе уравнения тренда к исходным данным.

Поскольку ошибка меньше 7%, то данное уравнение можно использовать в качестве тренда.
Однофакторный дисперсионный анализ.
Средние значения

Дисперсия

Среднеквадратическое отклонение

Коэффициент эластичности.
Коэффициент эластичности представляет собой показатель силы связи фактора t с результатом у, показывающий, на сколько процентов изменится значение у при изменении значения фактора на 1%.

Коэффициент эластичности меньше 1. Следовательно, при изменении t на 1%, Y изменится менее чем на 1%. Другими словами - влияние t на Y не существенно.
Эмпирическое корреляционное отношение.
Эмпирическое корреляционное отношение вычисляется для всех форм связи и служит для измерение тесноты зависимости. Изменяется в пределах [0;1].

где (y-y_t)² = 4.4-1.08 = 3.31
В отличие от линейного коэффициента корреляции он характеризует тесноту нелинейной связи и не характеризует ее направление. Изменяется в пределах [0;1].
Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока:
0.1 < η < 0.3: слабая;
0.3 < η < 0.5: умеренная;
0.5 < η < 0.7: заметная;
0.7 < η < 0.9: высокая;
0.9 < η < 1: весьма высокая;
Полученная величина свидетельствует о том, что изменение временного периода t существенно влияет на y.
Коэффициент детерминации.

т.е. в 75.39% случаев влияет на изменение данных. Другими словами - точность подбора уравнения тренда - высокая.

t	y	y(t)	(y-y_cp)²	(y-y(t))²	(t-t_p)²	(y-y(t)) : y
1	58.8	59.26	0.23	0.21	16	0.00786
2	58.7	59.03	0.14	0.11	9	0.00557
3	59	58.79	0.46	0.0431	4	0.00352
4	59	58.56	0.46	0.2	1	0.0075
5	58.8	58.32	0.23	0.23	0	0.00813
6	58.3	58.09	0.0004	0.0452	1	0.00365
7	57.9	57.85	0.18	0.0022	4	0.000825
8	57.5	57.62	0.68	0.0137	9	0.00204
9	56.9	57.38	2.02	0.23	16	0.00847
45	524.9	524.9	4.4	1.08	60	0.0476

Интервальный прогноз.
Определим среднеквадратическую ошибку прогнозируемого показателя.

m = 1 - количество влияющих факторов в уравнении тренда.
U_y=y_n+L±K
где

L - период упреждения; у_n+L - точечный прогноз по модели на (n + L)-й момент времени; n - количество наблюдений во временном ряду; Sy - стандартная ошибка прогнозируемого показателя; T_табл - табличное значение критерия Стьюдента для уровня значимости α и для числа степеней свободы, равного n-2.
По таблице Стьюдента находим Tтабл
T_табл (n-m-1;α/2) = (7;0.025) = 2.365
Точечный прогноз, t = 10: y(10) = -0.24*10 + 59.5 = 57.15

57.15 - 1.08 = 56.07 ; 57.15 + 1.08 = 58.23
Интервальный прогноз:
t = 10: (56.07;58.23)
Точечный прогноз, t = 11: y(11) = -0.24*11 + 59.5 = 56.91

56.91 - 1.14 = 55.77 ; 56.91 + 1.14 = 58.05
Интервальный прогноз:
t = 11: (55.77;58.05)

2. Сглаживаем ряд методом скользящей средней. Одним из эмпирических методов является метод скользящей средней. Этот метод состоит в замене абсолютных уровней ряда динамики их средними арифметическими значениями за определенные интервалы. Выбираются эти интервалы способом скольжения: постепенно исключаются из интервала первые уровни и включаются последующие.

t	y	y_s	Формула
1	58.8	58.75	(58.8 + 58.7)/2
2	58.7	58.85	(58.7 + 59)/2
3	59	59	(59 + 59)/2
4	59	58.9	(59 + 58.8)/2
5	58.8	58.55	(58.8 + 58.3)/2
6	58.3	58.1	(58.3 + 57.9)/2
7	57.9	57.7	(57.9 + 57.5)/2
8	57.5	57.2	(57.5 + 56.9)/2
9	56.9	-	-

Стандартная ошибка (погрешность) рассчитывается по формуле:

где i = (t-m-1, t)

3. Построим прогноз численности с использованием экспоненциального сглаживания. Важным методом стохастических прогнозов является метод экспоненциального сглаживания. Этот метод заключается в том, что ряд динамики сглаживается с помощью скользящей средней, в которой веса подчиняются экспоненциальному закону.
Эту среднюю называют экспоненциальной средней и обозначают S_t.
Она является характеристикой последних значений ряда динамики, которым присваивается наибольший вес.
Экспоненциальная средняя вычисляется по рекуррентной формуле:
S_t = α*Y_t + (1- α)S_t-1
где S_t - значение экспоненциальной средней в момент t;
S_t-1 - значение экспоненциальной средней в момент (t = 1);
Что касается начального параметра S₀, то в задачах его берут или равным значению первого уровня ряда у₁, или равным средней арифметической нескольких первых членов ряда.
Y_t - значение экспоненциального процесса в момент t;
α - вес t-ого значения ряда динамики (или параметр сглаживания).
Последовательное применение формулы дает возможность вычислить экспоненциальную среднюю через значения всех уровней данного ряда динамики.
Наиболее важной характеристикой в этой модели является α, по величине которой практически и осуществляется прогноз. Чем значение этого параметра ближе к 1, тем больше при прогнозе учитывается влияние последних уровней ряда динамики.
Если α близко к 0, то веса, по которым взвешиваются уровни ряда динамики убывают медленно, т.е. при прогнозе учитываются все прошлые уровни ряда.
В специальной литературе отмечается, что обычно на практике значение α находится в пределах от 0,1 до 0,3. Значение 0,5 почти никогда не превышается.
Экспоненциальное сглаживание применимо, прежде всего, при постоянном объеме потребления (α = 0,1 - 0,3). При более высоких значениях (0,3 - 0,5) метод подходит при изменении структуры потребления, например, с учетом сезонных колебаний.
В качестве S₀ берем первое значение ряда, S₀ = y₁ = 58.8

t	y	S_t	Формула
1	58.8	58.8	(1 - 0.1)58.8 + 0.158.8
2	58.7	58.71	(1 - 0.1)58.7 + 0.158.8
3	59	58.97	(1 - 0.1)59 + 0.158.71
4	59	59	(1 - 0.1)59 + 0.158.97
5	58.8	58.82	(1 - 0.1)58.8 + 0.159
6	58.3	58.35	(1 - 0.1)58.3 + 0.158.82
7	57.9	57.95	(1 - 0.1)57.9 + 0.158.35
8	57.5	57.54	(1 - 0.1)57.5 + 0.157.95
9	56.9	56.96	(1 - 0.1)56.9 + 0.157.54

Прогнозирование данных с использованием экспоненциального сглаживания.
Методы прогнозирования под названием "сглаживание" учитывают эффекты выброса функции намного лучше, чем способы, использующие регрессивный анализ.
Базовое уравнение имеет следующий вид:
F(t+1) = F(t)(1 - α) + αY(t)
F(t) – это прогноз, сделанный в момент времени t; F(t+1) отражает прогноз во временной период, следующий непосредственно за моментом времени t
Стандартная ошибка (погрешность) рассчитывается по формуле:

где i = (t - 2, t)

Пример. Методом наименьших квадратов найти функции вида y=ax+b, y=ax²+bx+c, аппроксимирующие экспериментальную функцию y=f(x). В обоих случаях найти суммы квадратов невязок ∑b_i². В декартовой системе координат построить экспериментальные точки и графики найденных функций y=ax+b,y=ax^2+bx+c.
Пример №5
Пример №6

Пример №3. Функция y=y(x) задана таблицей своих значений:
x: -2 -1 0 1 2
y: -0,8 -1,6 -1,3 0,4 3,2
Применяя метод наименьших квадратов, приблизить функцию многочленами 1-ой и 2-ой степеней. Для каждого приближения определить величину среднеквадратичной погрешности. Построить точечный график функции и графики многочленов.

Решение. Функция многочлена 2-ой степени имеет вид y = ax²+ bx + c.
1. Находим параметры уравнения методом наименьших квадратов. Система уравнений МНК:
a₀n + a₁∑x + a₂∑x²= ∑y
a₀∑x + a₁∑x²+ a₂∑x³= ∑yx
a₀∑x²+ a₁∑x³+ a₂∑x⁴= ∑yx²

x	y	x²	y²	x y	x³	x⁴	x²y
0	0	0	0	0	0	0	0
-2	-0.8	4	0.64	1.6	-8	16	-3.2
-1	-1.6	1	2.56	1.6	-1	1	-1.6
0	-1.3	0	1.69	0	0	0	0
1	0.4	1	0.16	0.4	1	1	0.4
2	3.2	4	10.24	6.4	8	16	12.8
0	-0.1	10	15.29	10	0	34	8.4

Для наших данных система уравнений имеет вид
6a₀+ 0a₁+ 10a₂= -0.1
0a₀+ 10a₁+ 0a₂= 10
10a₀+ 0a₁+ 34a₂= 8.4
Получаем a₀= 0.494, a₁= 1, a₂= -0.84
Уравнение: y = 0.494x²+x-0.84

X	f	Группы	Количество
2	3	5-10	5
3	6	10-15	8
4	7	15-20	14
5	4	...	...

Метод наименьших квадратов

Сглаживание ряда методом наименьших квадратов

Правила ввода данных

Поиск

Процесс

Сообщение