Корреляционный анализ. Подробный пример решения

Целью корреляционного анализа является выявление оценки силы связи между случайными величинами (признаками), которые характеризует некоторый реальный процесс.
Задачи корреляционного анализа:
а) Измерение степени связности (тесноты, силы, строгости, интенсивности) двух и более явлений.
б) Отбор факторов, оказывающих наиболее существенное влияние на результативный признак, на основании измерения степени связности между явлениями. Существенные в данном аспекте факторы используют далее в регрессионном анализе.
в) Обнаружение неизвестных причинных связей.

Формы проявления взаимосвязей весьма разнообразны. В качестве самых общих их видов выделяют функциональную (полную) и корреляционную (неполную) связи.
Корреляционная связь проявляется в среднем, для массовых наблюдений, когда заданным значениям зависимой переменной соответствует некоторый ряд вероятностных значений независимой переменной. Связь называется корреляционной, если каждому значению факторного признака соответствует вполне определенное неслучайное значение результативного признака.
Наглядным изображением корреляционной таблицы служит корреляционное поле. Оно представляет собой график, где на оси абсцисс откладываются значения X, по оси ординат – Y, а точками показываются сочетания X и Y. По расположению точек можно судить о наличии связи.
Показатели тесноты связи дают возможность охарактеризовать зависимость вариации результативного признака от вариации признака-фактора.
Более совершенным показателем степени тесноты корреляционной связи является линейный коэффициент корреляции. При расчете этого показателя учитываются не только отклонения индивидуальных значений признака от средней, но и сама величина этих отклонений.

Ключевыми вопросами данной темы являются уравнения регрессионной связи между результативным признаком и объясняющей переменной, метод наименьших квадратов для оценки параметров регрессионной модели, анализ качества полученного уравнения регрессии, построение доверительных интервалов прогноза значений результативного признака по уравнению регрессии.

Перейти к онлайн решению своей задачи
Использование графического метода.
Этот метод применяют для наглядного изображения формы связи между изучаемыми экономическими показателями. Для этого в прямоугольной системе координат строят график, по оси ординат откладывают индивидуальные значения результативного признака Y, а по оси абсцисс - индивидуальные значения факторного признака X.
Совокупность точек результативного и факторного признаков называется полем корреляции.
На основании поля корреляции можно выдвинуть гипотезу (для генеральной совокупности) о том, что связь между всеми возможными значениями X и Y носит линейный характер.
Линейное уравнение регрессии имеет вид y = bx + a + ε
Здесь ε - случайная ошибка (отклонение, возмущение).
Причины существования случайной ошибки:
1. Невключение в регрессионную модель значимых объясняющих переменных;
2. Агрегирование переменных. Например, функция суммарного потребления – это попытка общего выражения совокупности решений отдельных индивидов о расходах. Это лишь аппроксимация отдельных соотношений, которые имеют разные параметры.
3. Неправильное описание структуры модели;
4. Неправильная функциональная спецификация;
5. Ошибки измерения.
Так как отклонения εi для каждого конкретного наблюдения i – случайны и их значения в выборке неизвестны, то:
1) по наблюдениям xi и yi можно получить только оценки параметров α и β
2) Оценками параметров α и β регрессионной модели являются соответственно величины а и b, которые носят случайный характер, т.к. соответствуют случайной выборке;
Тогда оценочное уравнение регрессии (построенное по выборочным данным) будет иметь вид y = bx + a + ε, где ei – наблюдаемые значения (оценки) ошибок εi, а и b соответственно оценки параметров α и β регрессионной модели, которые следует найти.
Для оценки параметров α и β - используют МНК (метод наименьших квадратов). Решение ведем с использованием онлайн-калькулятора Уравнение регрессии.
Система нормальных уравнений.
a•n + b∑x = ∑y
a∑x + b∑x2 = ∑y•x
Для наших данных (см. таблицу расчетов ниже) система уравнений имеет вид:
46a + 17.3101 b = 18.3189
17.3101 a + 7.0687 b = 7.4742
Из первого уравнения выражаем а и подставим во второе уравнение:
Получаем b = 1.05, a = 0.0044
Уравнение регрессии: y = 1.05 x + 0.0044
1. Параметры уравнения регрессии.
Выборочные средние.



Выборочные дисперсии:


Среднеквадратическое отклонение


1.1. Коэффициент корреляции
Рассчитываем показатель тесноты связи. Таким показателем является выборочный линейный коэффициент корреляции, который рассчитывается по формуле:

Линейный коэффициент корреляции принимает значения от –1 до +1.
Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока:
0.1 < rxy < 0.3: слабая;
0.3 < rxy < 0.5: умеренная;
0.5 < rxy < 0.7: заметная;
0.7 < rxy < 0.9: высокая;
0.9 < rxy < 1: весьма высокая;
В нашем примере связь между признаком Y фактором X высокая и прямая.
1.2. Уравнение регрессии (оценка уравнения регрессии).

Линейное уравнение регрессии имеет вид y = 1.05 x + 0.0044
Коэффициентам уравнения линейной регрессии можно придать экономический смысл.
Коэффициент b = 1.05 показывает среднее изменение результативного показателя (в единицах измерения у) с повышением или понижением величины фактора х на единицу его измерения. В данном примере с увеличением на 1 единицу y повышается в среднем на 1.05.
Коэффициент a = 0.0044 формально показывает прогнозируемый уровень у, но только в том случае, если х=0 находится близко с выборочными значениями.
Но если х=0 находится далеко от выборочных значений х, то буквальная интерпретация может привести к неверным результатам, и даже если линия регрессии довольно точно описывает значения наблюдаемой выборки, нет гарантий, что также будет при экстраполяции влево или вправо.
Подставив в уравнение регрессии соответствующие значения х, можно определить выровненные (предсказанные) значения результативного показателя y(x) для каждого наблюдения.
Связь между у и х определяет знак коэффициента регрессии b (если > 0 – прямая связь, иначе - обратная). В нашем примере связь прямая.
1.3. Коэффициент эластичности.
Коэффициенты регрессии (в примере b) нежелательно использовать для непосредственной оценки влияния факторов на результативный признак в том случае, если существует различие единиц измерения результативного показателя у и факторного признака х.
Для этих целей вычисляются коэффициенты эластичности и бета - коэффициенты.
Средний коэффициент эластичности E показывает, на сколько процентов в среднем по совокупности изменится результат у от своей средней величины при изменении фактора x на 1% от своего среднего значения.
Коэффициент эластичности находится по формуле:


Коэффициент эластичности меньше 1. Следовательно, при изменении Х на 1%, Y изменится менее чем на 1%. Другими словами - влияние Х на Y не существенно.
Бета – коэффициент показывает, на какую часть величины своего среднего квадратичного отклонения изменится в среднем значение результативного признака при изменении факторного признака на величину его среднеквадратического отклонения при фиксированном на постоянном уровне значении остальных независимых переменных:

Т.е. увеличение x на величину среднеквадратического отклонения Sx приведет к увеличению среднего значения Y на 0.9 среднеквадратичного отклонения Sy.
1.4. Ошибка аппроксимации.
Оценим качество уравнения регрессии с помощью ошибки абсолютной аппроксимации. Средняя ошибка аппроксимации - среднее отклонение расчетных значений от фактических:


Поскольку ошибка меньше 15%, то данное уравнение можно использовать в качестве регрессии.
Дисперсионный анализ.
Задача дисперсионного анализа состоит в анализе дисперсии зависимой переменной:
∑(yi - ycp)2 = ∑(y(x) - ycp)2 + ∑(y - y(x))2
где
∑(yi - ycp)2 - общая сумма квадратов отклонений;
∑(y(x) - ycp)2 - сумма квадратов отклонений, обусловленная регрессией («объясненная» или «факторная»);
∑(y - y(x))2 - остаточная сумма квадратов отклонений.
Теоретическое корреляционное отношение для линейной связи равно коэффициенту корреляции rxy.
Для любой формы зависимости теснота связи определяется с помощью множественного коэффициента корреляции:

Данный коэффициент является универсальным, так как отражает тесноту связи и точность модели, а также может использоваться при любой форме связи переменных. При построении однофакторной корреляционной модели коэффициент множественной корреляции равен коэффициенту парной корреляции rxy.
1.6. Коэффициент детерминации.
Квадрат (множественного) коэффициента корреляции называется коэффициентом детерминации, который показывает долю вариации результативного признака, объясненную вариацией факторного признака.
Чаще всего, давая интерпретацию коэффициента детерминации, его выражают в процентах.
R2= 0.89572 = 0.8023
т.е. в 80.23 % случаев изменения х приводят к изменению y. Другими словами - точность подбора уравнения регрессии - высокая. Остальные 19.77 % изменения Y объясняются факторами, не учтенными в модели.

x y x 2 y 2 x • y y(x) (yi-ycp) 2 (y-y(x))2 (xi-xcp)2 |y - yx|:y
0.55 0.59 0.3 0.34 0.32 0.58 0.0354 0.0001 0.0286 0.019
0.57 0.46 0.33 0.22 0.27 0.6 0.0044 0.0194 0.0386 0.3
0.43 0.47 0.18 0.23 0.2 0.45 0.0058 0.0006 0.0025 0.0511
0.5 0.66 0.25 0.44 0.33 0.53 0.0697 0.017 0.0163 0.2
0.51 0.51 0.26 0.26 0.26 0.54 0.0135 0.0005 0.0176 0.0434
0.53 0.6 0.28 0.36 0.32 0.56 0.0406 0.0014 0.0247 0.0614
0.5 0.61 0.25 0.37 0.3 0.53 0.0446 0.0068 0.0151 0.14
0.47 0.51 0.22 0.26 0.24 0.5 0.0133 0.0003 0.0089 0.0325
0.54 0.6 0.29 0.36 0.33 0.57 0.0416 0.0011 0.0268 0.054
0.49 0.5 0.24 0.25 0.24 0.51 0.0095 0.0004 0.0124 0.0384
0.45 0.5 0.2 0.25 0.22 0.48 0.0096 0.0004 0.0054 0.0418
0.55 0.55 0.3 0.31 0.31 0.58 0.0245 0.0007 0.0304 0.0472
0.45 0.46 0.2 0.21 0.21 0.47 0.004 0.0001 0.0051 0.025
0.4 0.46 0.16 0.21 0.18 0.42 0.0037 0.0014 0.0005 0.0806
0.35 0.39 0.12 0.15 0.14 0.37 0.0001 0.0005 0.0009 0.0568
0.34 0.43 0.12 0.18 0.15 0.36 0.0009 0.0043 0.0011 0.15
0.33 0.37 0.11 0.14 0.12 0.35 0.0006 0.0005 0.002 0.0576
0.34 0.35 0.11 0.12 0.12 0.36 0.0021 0 0.0017 0.0078
0.5 0.42 0.25 0.18 0.21 0.52 0.0007 0.0097 0.0143 0.23
0.37 0.4 0.14 0.16 0.15 0.39 0 0.0002 0.0001 0.0344
0.43 0.38 0.19 0.14 0.16 0.45 0.0004 0.0058 0.0029 0.2
0.41 0.4 0.17 0.16 0.17 0.44 0 0.0011 0.0014 0.0824
0.52 0.48 0.27 0.23 0.25 0.54 0.0073 0.0037 0.0196 0.13
0.46 0.6 0.21 0.35 0.28 0.49 0.039 0.0116 0.0074 0.18
0.49 0.51 0.24 0.26 0.25 0.51 0.0124 0 0.0119 0.0057
0.34 0.47 0.11 0.22 0.16 0.36 0.0046 0.0119 0.0015 0.23
0.27 0.25 0.0715 0.0608 0.066 0.28 0.023 0.0014 0.0119 0.15
0.23 0.24 0.055 0.0572 0.0561 0.25 0.0253 0.0001 0.0201 0.0447
0.4 0.51 0.16 0.26 0.2 0.42 0.0125 0.0076 0.0005 0.17
0.32 0.31 0.0995 0.0972 0.0983 0.33 0.0075 0.0005 0.0037 0.0731
0.26 0.24 0.068 0.0586 0.0631 0.28 0.0244 0.0013 0.0133 0.15
0.24 0.28 0.0565 0.081 0.0676 0.25 0.0129 0.001 0.0192 0.11
0.18 0.23 0.034 0.0507 0.0415 0.2 0.0299 0.0008 0.0368 0.12
0.24 0.27 0.0565 0.0718 0.0637 0.25 0.017 0.0002 0.0192 0.0557
0.35 0.41 0.13 0.17 0.14 0.38 0.0001 0.0009 0.0005 0.0757
0.26 0.25 0.0685 0.061 0.0646 0.28 0.0229 0.001 0.0131 0.13
0.2 0.23 0.0415 0.0531 0.0469 0.22 0.0282 0.0002 0.0298 0.0556
0.35 0.25 0.12 0.0601 0.086 0.37 0.0235 0.016 0.0006 0.52
0.28 0.31 0.078 0.0942 0.0857 0.3 0.0083 0.0001 0.0094 0.0334
0.26 0.28 0.0657 0.0792 0.0721 0.27 0.0136 0.0001 0.0144 0.0313
0.28 0.19 0.0776 0.0365 0.0532 0.3 0.043 0.011 0.0095 0.55
0.27 0.24 0.0739 0.0586 0.0658 0.29 0.0244 0.0022 0.0109 0.19
0.27 0.26 0.072 0.0666 0.0693 0.29 0.0197 0.0007 0.0116 0.11
0.23 0.29 0.0528 0.0832 0.0662 0.24 0.0121 0.0019 0.0215 0.15
0.28 0.29 0.0781 0.0854 0.0817 0.3 0.0112 0 0.0094 0.0156
0.34 0.3 0.11 0.0891 0.1 0.36 0.0099 0.0033 0.0016 0.19
17.31 18.32 7.07 8.05 7.47 18.32 0.76 0.15 0.55 5.42

2. Оценка параметров уравнения регрессии.
2.3. Анализ точности определения оценок коэффициентов регрессии.
Несмещенной оценкой дисперсии возмущений является величина:


S2y = 0.0034 - необъясненная дисперсия (мера разброса зависимой переменной вокруг линии регрессии).

Sy = 0.0583 - стандартная ошибка оценки (стандартная ошибка регрессии).
Sa - стандартное отклонение случайной величины a.


Sb - стандартное отклонение случайной величины b.


2.4. Доверительные интервалы для зависимой переменной.
Экономическое прогнозирование на основе построенной модели предполагает, что сохраняются ранее существовавшие взаимосвязи переменных и на период упреждения.
Для прогнозирования зависимой переменной результативного признака необходимо знать прогнозные значения всех входящих в модель факторов.
Прогнозные значения факторов подставляют в модель и получают точечные прогнозные оценки изучаемого показателя.
(a + bxp ± ε)
где

Xp = 0.3763 • 10% = 0.0376
Рассчитаем границы интервала, в котором будет сосредоточено 95% возможных значений Y при неограниченно большом числе наблюдений и Xp = 0.0376

(0.0044 + 1.05*0.0376 ± 0.056)
(-0.0123;0.0998)
С вероятностью 95% можно гарантировать, что значения Y при неограниченно большом числе наблюдений не выйдет за пределы найденных интервалов.
Индивидуальные доверительные интервалы для Y при данном значении X.
(a + bxi ± ε)
где


xi y = 0.0044 + 1.0467xi εi ymin ymax
0.55 0.58 0.12 0.45 0.7
0.57 0.6 0.12 0.48 0.73
0.43 0.45 0.12 0.33 0.57
0.5 0.53 0.12 0.41 0.65
0.51 0.54 0.12 0.42 0.66
0.53 0.56 0.12 0.44 0.68
0.5 0.53 0.12 0.41 0.65
0.47 0.5 0.12 0.38 0.62
0.54 0.57 0.12 0.45 0.69
0.49 0.51 0.12 0.39 0.63
0.45 0.48 0.12 0.36 0.59
0.55 0.58 0.12 0.46 0.7
0.45 0.47 0.12 0.35 0.59
0.4 0.42 0.12 0.3 0.54
0.35 0.37 0.12 0.25 0.49
0.34 0.36 0.12 0.24 0.48
0.33 0.35 0.12 0.23 0.47
0.34 0.36 0.12 0.24 0.47
0.5 0.52 0.12 0.4 0.64
0.37 0.39 0.12 0.27 0.51
0.43 0.45 0.12 0.34 0.57
0.41 0.44 0.12 0.32 0.56
0.52 0.54 0.12 0.42 0.67
0.46 0.49 0.12 0.37 0.61
0.49 0.51 0.12 0.39 0.63
0.34 0.36 0.12 0.24 0.48
0.27 0.28 0.12 0.16 0.4
0.23 0.25 0.12 0.13 0.37
0.4 0.42 0.12 0.3 0.54
0.32 0.33 0.12 0.22 0.45
0.26 0.28 0.12 0.16 0.4
0.24 0.25 0.12 0.13 0.37
0.18 0.2 0.12 0.0752 0.32
0.24 0.25 0.12 0.13 0.37
0.35 0.38 0.12 0.26 0.49
0.26 0.28 0.12 0.16 0.4
0.2 0.22 0.12 0.096 0.34
0.35 0.37 0.12 0.25 0.49
0.28 0.3 0.12 0.18 0.42
0.26 0.27 0.12 0.15 0.39
0.28 0.3 0.12 0.18 0.42
0.27 0.29 0.12 0.17 0.41
0.27 0.29 0.12 0.17 0.4
0.23 0.24 0.12 0.12 0.37
0.28 0.3 0.12 0.18 0.42


С вероятностью 95% можно гарантировать, что значения Y при неограниченно большом числе наблюдений не выйдет за пределы найденных интервалов.
2.5. Проверка гипотез относительно коэффициентов линейного уравнения регрессии.
1) t-статистика. Критерий Стьюдента.
Для оценки статистической значимости коэффициентов регрессии и корреляции рассчитываются t-критерий Стьюдента и доверительные интервалы каждого из показателей. Выдвигается гипотеза Н0 о случайной природе показателей, т.е. о незначимом их отличии от нуля.
Проверим гипотезу H0 о равенстве отдельных коэффициентов регрессии нулю (при альтернативе H1 не равно) на уровне значимости α=0.05.
tкрит (n-m-1;α/2) = (44;0.025) = 2.009


Поскольку 13.36 > 2.009, то статистическая значимость коэффициента регрессии b подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).


Поскольку 0.14 < 2.009, то статистическая значимость коэффициента регрессии a не подтверждается (принимаем гипотезу о равенстве нулю этого коэффициента).
Доверительный интервал для коэффициентов уравнения регрессии.
Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95% будут следующими:
(b - tкрит Sb; b + tкрит Sb)
(1.0467 - 2.009 • 0.0783; 1.0467 + 2.009 • 0.0783)
(0.8893;1.204)
С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.
(a - tкрит Sa; a + tкрит Sa)
(0.0044 - 2.009 • 0.0307; 0.0044 + 2.009 • 0.0307)
(-0.0573;0.0661)
С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.
2) F-статистика. Критерий Фишера.
Проверка значимости модели регрессии проводится с использованием F-критерия Фишера, расчетное значение которого находится как отношение дисперсии исходного ряда наблюдений изучаемого показателя и несмещенной оценки дисперсии остаточной последовательности для данной модели.
Если расчетное значение с k1=(m) и k2=(n-m-1) степенями свободы больше табличного при заданном уровне значимости, то модель считается значимой.

где m – число факторов в модели.
Оценка статистической значимости парной линейной регрессии производится по следующему алгоритму:
1. Выдвигается нулевая гипотеза о том, что уравнение в целом статистически незначимо: H0: R2=0 на уровне значимости α.
2. Далее определяют фактическое значение F-критерия:


где m=1 для парной регрессии.
3. Табличное значение определяется по таблицам распределения Фишера для заданного уровня значимости, принимая во внимание, что число степеней свободы для общей суммы квадратов (большей дисперсии) равно 1 и число степеней свободы остаточной суммы квадратов (меньшей дисперсии) при линейной регрессии равно n-2.
Fтабл - это максимально возможное значение критерия под влиянием случайных факторов при данных степенях свободы и уровне значимости α. Уровень значимости α - вероятность отвергнуть правильную гипотезу при условии, что она верна. Обычно α принимается равной 0,05 или 0,01.
4. Если фактическое значение F-критерия меньше табличного, то говорят, что нет основания отклонять нулевую гипотезу.
В противном случае, нулевая гипотеза отклоняется и с вероятностью (1-α) принимается альтернативная гипотеза о статистической значимости уравнения в целом.
Табличное значение критерия со степенями свободы k1=1 и k2=44, Fтабл = 4
Поскольку фактическое значение F > Fтабл, то коэффициент детерминации статистически значим (найденная оценка уравнения регрессии статистически надежна).
Связь между F-критерием Фишера и t-статистикой Стьюдента выражается равенством:

Проверка на наличие автокорреляции остатков.
Важной предпосылкой построения качественной регрессионной модели по МНК является независимость значений случайных отклонений от значений отклонений во всех других наблюдениях. Это гарантирует отсутствие коррелированности между любыми отклонениями и, в частности, между соседними отклонениями.
Автокорреляция (последовательная корреляция) определяется как корреляция между наблюдаемыми показателями, упорядоченными во времени (временные ряды) или в пространстве (перекрестные ряды). Автокорреляция остатков (отклонений) обычно встречается в регрессионном анализе при использовании данных временных рядов и очень редко при использовании перекрестных данных.
В экономических задачах значительно чаще встречается положительная автокорреляция, нежели отрицательная автокорреляция. В большинстве случаев положительная автокорреляция вызывается направленным постоянным воздействием некоторых неучтенных в модели факторов.
Отрицательная автокорреляция фактически означает, что за положительным отклонением следует отрицательное и наоборот. Такая ситуация может иметь место, если ту же зависимость между спросом на прохладительные напитки и доходами рассматривать по сезонным данным (зима-лето).
Среди основных причин, вызывающих автокорреляцию, можно выделить следующие:
1. Ошибки спецификации. Неучет в модели какой-либо важной объясняющей переменной либо неправильный выбор формы зависимости обычно приводят к системным отклонениям точек наблюдения от линии регрессии, что может обусловить автокорреляцию.
2. Инерция. Многие экономические показатели (инфляция, безработица, ВНП и т.д.) обладают определенной цикличностью, связанной с волнообразностью деловой активности. Поэтому изменение показателей происходит не мгновенно, а обладает определенной инертностью.
3. Эффект паутины. Во многих производственных и других сферах экономические показатели реагируют на изменение экономических условий с запаздыванием (временным лагом).
4. Сглаживание данных. Зачастую данные по некоторому продолжительному временному периоду получают усреднением данных по составляющим его интервалам. Это может привести к определенному сглаживанию колебаний, которые имелись внутри рассматриваемого периода, что в свою очередь может служить причиной автокорреляции.
Последствия автокорреляции схожи с последствиями гетероскедастичности: выводы по t- и F-статистикам, определяющие значимость коэффициента регрессии и коэффициента детерминации, возможно, будут неверными.

Обнаружение автокорреляции
1. Графический метод
Есть ряд вариантов графического определения автокорреляции. Один из них увязывает отклонения εi с моментами их получения i. При этом по оси абсцисс откладывают либо время получения статистических данных, либо порядковый номер наблюдения, а по оси ординат – отклонения εi (либо оценки отклонений).
Естественно предположить, что если имеется определенная связь между отклонениями, то автокорреляция имеет место. Отсутствие зависимости скорее всего будет свидетельствовать об отсутствии автокорреляции.
Автокорреляция становится более наглядной, если построить график зависимости εi от εi-1

2. Коэффициент автокорреляции.

Если коэффициент автокорреляции rei < 0.5, то есть основания утверждать, что автокорреляция отсутствует.

3. Критерий Дарбина-Уотсона.
Этот критерий является наиболее известным для обнаружения автокорреляции.
При статистическом анализе уравнения регрессии на начальном этапе часто проверяют выполнимость одной предпосылки: условия статистической независимости отклонений между собой. При этом проверяется некоррелированность соседних величин εi.

y y(x) εi = y-y(x) ε2 i - εi-1)2
0.59 0.58 0.0111 0.0001 0
0.46 0.6 -0.14 0.0194 0.0226
0.47 0.45 0.0243 0.0006 0.0268
0.66 0.53 0.13 0.017 0.0112
0.51 0.54 -0.0223 0.0005 0.0233
0.6 0.56 0.0368 0.0014 0.0035
0.61 0.53 0.0827 0.0068 0.0021
0.51 0.5 0.0167 0.0003 0.0044
0.6 0.57 0.0325 0.0011 0.0003
0.5 0.51 -0.019 0.0004 0.0027
0.5 0.48 0.0208 0.0004 0.0016
0.55 0.58 -0.0262 0.0007 0.0022
0.46 0.47 -0.0115 0.0001 0.0002
0.46 0.42 0.037 0.0014 0.0024
0.39 0.37 0.0221 0.0005 0.0002
0.43 0.36 0.0655 0.0043 0.0019
0.37 0.35 0.0215 0.0005 0.0019
0.35 0.36 -0.0027 0 0.0006
0.42 0.52 -0.0984 0.0097 0.0091
0.4 0.39 0.0139 0.0002 0.0126
0.38 0.45 -0.0765 0.0058 0.0082
0.4 0.44 -0.0333 0.0011 0.0019
0.48 0.54 -0.0608 0.0037 0.0008
0.6 0.49 0.11 0.0116 0.0283
0.51 0.51 -0.0029 0 0.0122
0.47 0.36 0.11 0.0119 0.0125
0.25 0.28 -0.0377 0.0014 0.0215
0.24 0.25 -0.0107 0.0001 0.0007
0.51 0.42 0.0874 0.0076 0.0096
0.31 0.33 -0.0228 0.0005 0.0121
0.24 0.28 -0.0354 0.0013 0.0002
0.28 0.25 0.0314 0.001 0.0045
0.23 0.2 0.0278 0.0008 0
0.27 0.25 0.0149 0.0002 0.0002
0.41 0.38 0.0307 0.0009 0.0003
0.25 0.28 -0.0315 0.001 0.0039
0.23 0.22 0.0128 0.0002 0.002
0.25 0.37 -0.13 0.016 0.0194
0.31 0.3 0.0102 0.0001 0.0187
0.28 0.27 0.0088 0.0001 0
0.19 0.3 -0.11 0.011 0.013
0.24 0.29 -0.0469 0.0022 0.0034
0.26 0.29 -0.0273 0.0007 0.0004
0.29 0.24 0.0436 0.0019 0.005
0.29 0.3 -0.0046 0 0.0023
0.3 0.36 -0.0577 0.0033 0.0028
0.15 0.31

Для анализа коррелированности отклонений используют статистику Дарбина-Уотсона:


Критические значения d1 и d2 определяются на основе специальных таблиц для требуемого уровня значимости α, числа наблюдений n = 46 и количества объясняющих переменных m=1.
Автокорреляция отсутствует, если выполняется следующее условие:
d1 < DW и d2 < DW < 4 - d2.
Не обращаясь к таблицам, можно пользоваться приблизительным правилом и считать, что автокорреляция остатков отсутствует, если 1.5 < DW < 2.5. Поскольку 1.5 < 2.09 < 2.5, то автокорреляция остатков отсутствует.
Для более надежного вывода целесообразно обращаться к табличным значениям.
По таблице Дарбина-Уотсона для n=46 и k=1 (уровень значимости 5%) находим: d1 = 1.50; d2 = 1.59.
Поскольку 1.50 < 2.09 и 1.59 < 2.09 < 4 - 1.59, то автокорреляция остатков отсутствует.

Проверка наличия гетероскедастичности.
1) Методом графического анализа остатков.
В этом случае по оси абсцисс откладываются значения объясняющей переменной X, а по оси ординат либо отклонения ei, либо их квадраты e2i.
Если имеется определенная связь между отклонениями, то гетероскедастичность имеет место. Отсутствие зависимости скорее всего будет свидетельствовать об отсутствии гетероскедастичности.

2) При помощи теста ранговой корреляции Спирмена.
Коэффициент ранговой корреляции Спирмена.
Присвоим ранги признаку ei и фактору X. Найдем сумму разности квадратов d2.
По формуле вычислим коэффициент ранговой корреляции Спирмена.

X ei ранг X, dx ранг ei, dy (dx - dy)2
0.55 -0.0111 44 22 484
0.57 0.14 46 46 0
0.43 -0.0243 29 14 225
0.5 -0.13 39 1 1444
0.51 0.0223 40 31 81
0.53 -0.0368 42 9 1089
0.5 -0.0827 38 5 1089
0.47 -0.0167 34 18 256
0.54 -0.0325 43 10 1089
0.49 0.019 36 30 36
0.45 -0.0208 32 17 225
0.55 0.0262 45 33 144
0.45 0.0115 31 29 4
0.4 -0.037 26 8 324
0.35 -0.0221 22 15 49
0.34 -0.0655 21 6 225
0.33 -0.0215 17 16 1
0.34 0.0027 18 25 49
0.5 0.0984 37 43 36
0.37 -0.0139 25 20 25
0.43 0.0765 30 42 144
0.41 0.0333 28 36 64
0.52 0.0608 41 41 0
0.46 -0.11 33 3 900
0.49 0.0029 35 26 81
0.34 -0.11 20 2 324
0.27 0.0377 10 38 784
0.23 0.0107 4 28 576
0.4 -0.0874 27 4 529
0.32 0.0228 16 32 256
0.26 0.0354 8 37 841
0.24 -0.0314 6 11 25
0.18 -0.0278 1 13 144
0.24 -0.0149 5 19 196
0.35 -0.0307 24 12 144
0.26 0.0315 9 35 676
0.2 -0.0128 2 21 361
0.35 0.13 23 45 484
0.28 -0.0102 14 23 81
0.26 -0.0088 7 24 289
0.28 0.11 13 44 961
0.27 0.0469 12 39 729
0.27 0.0273 11 34 529
0.23 -0.0436 3 7 16
0.28 0.0046 15 27 144
0.34 0.0577 19 40 441
16594


Связь между признаком ei и фактором X слабая и обратная

Оценка коэффициента ранговой корреляции Спирмена.
Значимость коэффициента ранговой корреляции Спирмена

По таблице Стьюдента находим tтабл:
tтабл (n-m-1;α/2) = (44;0.05/2) = 2.009
Поскольку Tнабл < tтабл , то принимаем гипотезу о равенстве 0 коэффициента ранговой корреляции. Другими словами, коэффициент ранговой корреляции статистически - не значим.
Интервальная оценка для коэффициента корреляции (доверительный интервал).

Доверительный интервал для коэффициента ранговой корреляции
r(-0.3194;0.2727)
Проверим гипотезу H0: гетероскедастичность отсутствует.
Поскольку 2.009 > 0.16, то гипотеза об отсутствии гетероскедастичности принимается.

Перейти к онлайн решению своей задачи

Литература основная

  1. Эконометрика: Учебник / Под ред. И.И. Елисеевой. – М.: Финансы и статистика, 2001, с. 34..89.
  2. Магнус Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика. Начальный курс. Учебное пособие. – 2-е изд., испр. – М.: Дело, 1998, с. 17..42.
  3. Практикум по эконометрике: Учеб. пособие / И.И. Елисеева, С.В. Курышева, Н.М. Гордеенко и др.; Под ред. И.И. Елисеевой. – М.: Финансы и статистика, 2001, с. 5..48.
загрузка...