Уравнение нелинейной регрессии
Назначение сервиса. С помощью данного онлайн-калькулятора можно найти параметры уравнения нелинейной регрессии (экспоненциальной, степенной, равносторонней гиперболы, логарифмической, показательной) (см. пример).Примечание: если необходимо определить параметры параболической зависимости (y = ax2 + bx + c), то можно воспользоваться сервисом Аналитическое выравнивание.
Ограничить однородную совокупность единиц, устранив аномальные объекты наблюдения можно через метод Ирвина или по правилу трех сигм (устранить те единицы, для которых значение объясняющего фактора отклоняется от среднего более, чем на утроенное среднеквадратичное отклонение).
Типовые задания
Исследуется зависимость производительности труда y от уровня механизации работ x (%) по данным 14 промышленных предприятий. Статистические данные приведены в таблице.
Требуется:
1) Найти оценки параметров линейной регрессии у на х. Построить диаграмму рассеяния и нанести прямую регрессии на диаграмму рассеяния.
2) На уровне значимости α=0.05 проверить гипотезу о согласии линейной регрессии с результатами наблюдений.
3) С надежностью γ=0.95 найти доверительные интервалы для параметров линейной регрессии.
Вместе с этим калькулятором также используют следующие:
Уравнение множественной регрессии
Виды нелинейной регрессии
| Вид | Класс нелинейных моделей |
|
Нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам |
|
Нелинейные по оцениваемым параметрам |
Уравнению регрессии первого порядка - это уравнение парной линейной регрессии.
Уравнение регрессии второго порядка это полиномальное уравнение регрессии второго порядка: y = a + bx + cx2.
Уравнение регрессии третьего порядка соответственно полиномальное уравнение регрессии третьего порядка: y = a + bx + cx2 + dx3.
Чтобы привести нелинейные зависимости к линейной используют методы линеаризации (см. метод выравнивания):
- Замена переменных.
- Логарифмирование обеих частей уравнения.
- Комбинированный.
| y = f(x) | Преобразование | Метод линеаризации |
| y = b xa | Y = ln(y); X = ln(x) | Логарифмирование |
| y = b eax | Y = ln(y); X = x | Комбинированный |
| y = 1/(ax+b) | Y = 1/y; X = x | Замена переменных |
| y = x/(ax+b) | Y = x/y; X = x | Замена переменных. Пример |
| y = aln(x)+b | Y = y; X = ln(x) | Комбинированный |
| y = a + bx + cx2 | x1 = x; x2 = x2 | Замена переменных |
| y = a + bx + cx2 + dx3 | x1 = x; x2 = x2; x3 = x3 | Замена переменных |
| y = a + b/x | x1 = 1/x | Замена переменных |
| y = a + sqrt(x)b | x1 = sqrt(x) | Замена переменных |
- Построить поле корреляции и сформулировать гипотезу о форме связи.
- Рассчитать параметры уравнений линейной, степенной, экспоненциальной, полулогарифмической, обратной, гиперболической парной регрессии.
- Оценить тесноту связи с помощью показателей корреляции и детерминации.
- Дать с помощью среднего (общего) коэффициента эластичности сравнительную оценку силы связи фактора с результатом.
- Оценить с помощью средней ошибки аппроксимации качество уравнений.
- Оценить с помощью F-критерия Фишера статистическую надежность результатов регрессионного моделирования. По значениям характеристик, рассчитанных в пп. 4, 5 и данном пункте, выбрать лучшее уравнение регрессии и дать его обоснование.
- Рассчитать прогнозное значение результата, если прогнозное значение фактора увеличится на 15% от его среднего уровня. Определить доверительный интервал прогноза для уровня значимости
α=0,05. - Оценить полученные результаты, выводы оформить в аналитической записке.
| Год | Фактическое конечное потребление домашних хозяйств (в текущих ценах), млрд. руб. (1995 г. - трлн. руб.), y | Среднедушевые денежные доходы населения (в месяц), руб. (1995 г. - тыс. руб.), х |
| 1995 | 872 | 515,9 |
| 2000 | 3813 | 2281,1 |
| 2001 | 5014 | 3062 |
| 2002 | 6400 | 3947,2 |
| 2003 | 7708 | 5170,4 |
| 2004 | 9848 | 6410,3 |
| 2005 | 12455 | 8111,9 |
| 2006 | 15284 | 10196 |
| 2007 | 18928 | 12602,7 |
| 2008 | 23695 | 14940,6 |
| 2009 | 25151 | 16856,9 |
Решение. В калькуляторе последовательно выбираем виды нелинейной регрессии. Получим таблицу следующего вида.
Экспоненциальное уравнение регрессии имеет вид y = a ebx
После линеаризации получим: ln(y) = ln(a) + bx
Получаем эмпирические коэффициенты регрессии: b = 0.000162, a = 7.8132
Уравнение регрессии: y = e7.81321500e0.000162x = 2473.06858e0.000162x
Степенное уравнение регрессии имеет вид y = a xb
После линеаризации получим: ln(y) = ln(a) + b ln(x)
Эмпирические коэффициенты регрессии: b = 0.9626, a = 0.7714
Уравнение регрессии: y = e0.77143204x0.9626 = 2.16286x0.9626
Гиперболическое уравнение регрессии имеет вид y = b/x + a + ε
После линеаризации получим: y=bx + a
Эмпирические коэффициенты регрессии: b = 21089190.1984, a = 4585.5706
Эмпирическое уравнение регрессии: y = 21089190.1984 / x + 4585.5706
Логарифмическое уравнение регрессии имеет вид y = b ln(x) + a + ε
Эмпирические коэффициенты регрессии: b = 7142.4505, a = -49694.9535
Уравнение регрессии: y = 7142.4505 ln(x) - 49694.9535
Показательное уравнение регрессии имеет вид y = a bx + ε
После линеаризации получим: ln(y) = ln(a) + x ln(b)
Эмпирические коэффициенты регрессии: b = 0.000162, a = 7.8132
y = e7.8132*e0.000162x = 2473.06858*1.00016x
| x | y | 1/x | ln(x) | ln(y) |
| 515.9 | 872 | 0.00194 | 6.25 | 6.77 |
| 2281.1 | 3813 | 0.000438 | 7.73 | 8.25 |
| 3062 | 5014 | 0.000327 | 8.03 | 8.52 |
| 3947.2 | 6400 | 0.000253 | 8.28 | 8.76 |
| 5170.4 | 7708 | 0.000193 | 8.55 | 8.95 |
| 6410.3 | 9848 | 0.000156 | 8.77 | 9.2 |
| 8111.9 | 12455 | 0.000123 | 9 | 9.43 |
| 10196 | 15284 | 9.8E-5 | 9.23 | 9.63 |
| 12602.7 | 18928 | 7.9E-5 | 9.44 | 9.85 |
| 14940.6 | 23695 | 6.7E-5 | 9.61 | 10.07 |
| 16856.9 | 25151 | 5.9E-5 | 9.73 | 10.13 |
Парная нелинейная регрессия и корреляция. Примеры
Задача № 1. Изучается зависимость материалоемкости продукции от размера предприятия по 10 однородным заводам (см. таблицу).| Показатель | Материалоемкость продукции по заводам | |||||||||
| 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | |
| Потреблено материалов на единицу продукции, кг., y | 9 | 6 | 5 | 4 | 3,7 | 3,6 | 3,5 | 6 | 7 | 3,5 |
| Выпуск продукции, тыс. ед., х | 100 | 200 | 300 | 400 | 500 | 600 | 700 | 150 | 120 | 250 |
1. Найдите параметры уравнения
2. Оцените тесноту связи с помощью индекса корреляции.
3. Охарактеризуйте эластичность изменения материалоемкости продукции.
4. Сделайте вывод о значимости уравнения регрессии.
Решение находим с помощью сервиса нелинейная регрессия.
Для оценки параметров α и β - используют МНК (метод наименьших квадратов). Метод наименьших квадратов дает наилучшие (состоятельные, эффективные и несмещенные) оценки параметров уравнения регрессии.
Но только в том случае, если выполняются определенные предпосылки относительно случайного члена (ε) и независимой переменной (x).
Формально критерий МНК можно записать так:
S = ∑(yi - y*i)2 → min
Система нормальных уравнений.
a•n + b∑x = ∑y
a∑x + b∑x2 = ∑y•x
Для наших данных система уравнений имеет вид
10a + 0.0449 b = 51.3
0.0449 a + 0.0003 b = 0.28
Из первого уравнения выражаем а и подставим во второе уравнение:
Получаем эмпирические коэффициенты регрессии: b = 592.31, a = 2.47
Уравнение регрессии (эмпирическое уравнение регрессии):
y = 592.31 / x + 2.47
Эмпирические коэффициенты регрессии a и b являются лишь оценками теоретических коэффициентов βi, а само уравнение отражает лишь общую тенденцию в поведении рассматриваемых переменных.
Коэффициент эластичности.
Коэффициенты регрессии (в примере b) нежелательно использовать для непосредственной оценки влияния факторов на результативный признак в том случае, если существует различие единиц измерения результативного показателя у и факторного признака х.
Для этих целей вычисляются коэффициенты эластичности и бета - коэффициенты.
Средний коэффициент эластичности E показывает, на сколько процентов в среднем по совокупности изменится результат у от своей средней величины при изменении фактора x на 1% от своего среднего значения.
Коэффициент эластичности находится по формуле:
Коэффициент эластичности меньше 1. Следовательно, при изменении Х на 1%, Y изменится менее чем на 1%. Другими словами - влияние Х на Y не существенно.
Эмпирическое корреляционное отношение.
Эмпирическое корреляционное отношение вычисляется для всех форм связи и служит для измерение тесноты зависимости. Изменяется в пределах [0;1].
Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока:
0.1 < η < 0.3: слабая;
0.3 < η < 0.5: умеренная;
0.5 < η < 0.7: заметная;
0.7 < η < 0.9: высокая;
0.9 < η < 1: весьма высокая;
Индекс корреляции.
Величина индекса корреляции R находится в границах от 0 до 1. Чем ближе она к единице, тем теснее связь рассматриваемых признаков, тем более надежно уравнение регрессии.
Полученная величина свидетельствует о том, что фактор x существенно влияет на y
Для любой формы зависимости теснота связи определяется с помощью множественного коэффициента корреляции:
Данный коэффициент является универсальным, так как отражает тесноту связи и точность модели, а также может использоваться при любой форме связи переменных. При построении однофакторной корреляционной модели коэффициент множественной корреляции равен коэффициенту парной корреляции rxy.
В отличие от линейного коэффициента корреляции он характеризует тесноту нелинейной связи и не характеризует ее направление. Изменяется в пределах [0;1].
1.6. Индекс детерминации.
Величину R2 (равную отношению объясненной уравнением регрессии дисперсии результата у к общей дисперсии у) для нелинейных связей называют индексом детерминации.
Чаще всего, давая интерпретацию индекса детерминации, его выражают в процентах.
т.е. в 89.7 % случаев изменения х приводят к изменению y. Другими словами - точность подбора уравнения регрессии - высокая. Остальные 10.3 % изменения Y объясняются факторами, не учтенными в модели.
| 1/x | y | x 2 | y 2 | x • y | y(x) | (yi-ycp) 2 | (y-y(x))2 | (xi-xcp)2 | |y - yx|:y |
| 0.01 | 9 | 0.0001 | 81 | 0.09 | 8.39 | 14.98 | 0.37 | 3E-05 | 0.0676 |
| 0.005 | 6 | 2.5E-05 | 36 | 0.03 | 5.43 | 0.76 | 0.32 | 0 | 0.0949 |
| 0.003333 | 5 | 1.1E-05 | 25 | 0.0167 | 4.44 | 0.0169 | 0.31 | 1E-06 | 0.11 |
| 0.0025 | 4 | 6E-06 | 16 | 0.01 | 3.95 | 1.28 | 0.002539 | 4E-06 | 0.0126 |
| 0.002 | 3.7 | 4E-06 | 13.69 | 0.0074 | 3.65 | 2.04 | 0.002166 | 6E-06 | 0.0126 |
| 0.001667 | 3.6 | 3E-06 | 12.96 | 0.006 | 3.46 | 2.34 | 0.0207 | 8E-06 | 0.04 |
| 0.001429 | 3.5 | 2E-06 | 12.25 | 0.005 | 3.31 | 2.66 | 0.0342 | 9E-06 | 0.0529 |
| 0.006667 | 6 | 4.4E-05 | 36 | 0.04 | 6.42 | 0.76 | 0.17 | 5E-06 | 0.0696 |
| 0.008333 | 7 | 6.9E-05 | 49 | 0.0583 | 7.4 | 3.5 | 0.16 | 1.5E-05 | 0.0578 |
| 0.004 | 3.5 | 1.6E-05 | 12.25 | 0.014 | 4.84 | 2.66 | 1.79 | 0 | 0.38 |
| 0.0449 | 51.3 | 0.000281 | 294.15 | 0.28 | 51.3 | 30.98 | 3.19 | 7.9E-05 | 0.9 |
Задача № 2
По данным, полученным от 20 фермерских хозяйств, выявлена зависимость объема выпуска продукции растениеводства (млн. руб.) у от четырех факторов: а) численности работников (чел.) L; б) количества минеральных удобрений на 1 га посева (кг.) М; в) количества осадков в период вегетации (мл.) R;
г) качества почвы (баллов) Q. Получены следующие варианты уравнений регрессии и доверительные интервалы коэффициентов регрессии (таблицы 1 и 2):
1) y = 2 + 0,5L + 1,7M – 2R, R2 = 0,77.
Таблица 1
| Граница | Доверительные интервалы для коэффициентов регрессии при факторе | ||
| L | M | R | |
| Нижняя | 0,1 | ??? | ??? |
| Верхняя | ??? | 2,3 | 1,5 |
2) y = 6,4 + 0,7L + 1,5L + 1,5M – 2R + 0,8Q, R2 = 0,81.
Таблица 2
| Граница | Доверительные интервалы для коэффициентов регрессии при факторе | |||
| L | M | R | Q | |
| Нижняя | 0,3 | -0,2 | ??? | 0,4 |
| Верхняя | ??? | ??? | -1,2 | 1,2 |
Задание
1. Восстановите пропущенные границы доверительных интервалов.
2. Выберите наилучшее уравнение регрессии. Дайте интерпретацию его параметров и доверительных интервалов для коэффициентов регрессии на примере одного из факторных признаков.
3. Оцените целесообразность включения в модель y фактора Q.