Корреляционный анализ. Подробное руководство к решению задач

1. Использование графического метода.
Графический метод применяют для наглядного изображения формы связи между изучаемыми экономическими показателями. Для этого в прямоугольной системе координат строят график, по оси ординат откладывают индивидуальные значения результативного признака Y, а по оси абсцисс - индивидуальные значения факторного признака X.
Совокупность точек результативного и факторного признаков называется полем корреляции.

поле корреляции


На основании поля корреляции можно выдвинуть гипотезу (для генеральной совокупности) о том, что связь между всеми возможными значениями X и Y носит линейный характер.
Линейное уравнение регрессии имеет вид y = bx + a + ε
Здесь ε - случайная ошибка (отклонение, возмущение).
Причины существования случайной ошибки:
1. Невключение в регрессионную модель значимых объясняющих переменных;
2. Агрегирование переменных. Например, функция суммарного потребления – это попытка общего выражения совокупности решений отдельных индивидов о расходах. Это лишь аппроксимация отдельных соотношений, которые имеют разные параметры.
3. Неправильное описание структуры модели;
4. Неправильная функциональная спецификация;
5. Ошибки измерения.
Так как отклонения εi для каждого конкретного наблюдения i – случайны и их значения в выборке неизвестны, то:
1) по наблюдениям xi и yi можно получить только оценки параметров α и β
2) Оценками параметров α и β регрессионной модели являются соответственно величины а и b, которые носят случайный характер, т.к. соответствуют случайной выборке;
Тогда оценочное уравнение регрессии (построенное по выборочным данным) будет иметь вид y = bx + a + ε, где ei – наблюдаемые значения (оценки) ошибок εi, а и b соответственно оценки параметров α и β регрессионной модели, которые следует найти.
Для оценки параметров α и β - используют МНК (метод наименьших квадратов). Метод наименьших квадратов дает наилучшие (состоятельные, эффективные и несмещенные) оценки параметров уравнения регрессии.
Но только в том случае, если выполняются определенные предпосылки относительно случайного члена (ε) и независимой переменной (x).
Формально критерий МНК можно записать так:
S = ∑(yi - y*i)2 → min
Система нормальных уравнений.
a•n + b∑x = ∑y
a∑x + b∑x2 = ∑y•x
Для наших данных система уравнений имеет вид
30a + 5763 b = 21460
5763 a + 1200261 b = 3800360
Из первого уравнения выражаем а и подставим во второе уравнение:
Получаем b = -3.46, a = 1379.33
Уравнение регрессии:
y = -3.46 x + 1379.33

2. Расчет параметров уравнения регрессии.
Выборочные средние.



Выборочные дисперсии:


Среднеквадратическое отклонение


1.1. Коэффициент корреляции
Ковариация.

Рассчитываем показатель тесноты связи. Таким показателем является выборочный линейный коэффициент корреляции, который рассчитывается по формуле:

Линейный коэффициент корреляции принимает значения от –1 до +1.
Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока:
0.1 < rxy < 0.3: слабая;
0.3 < rxy < 0.5: умеренная;
0.5 < rxy < 0.7: заметная;
0.7 < rxy < 0.9: высокая;
0.9 < rxy < 1: весьма высокая;
В нашем примере связь между признаком Y фактором X высокая и обратная.
Кроме того, коэффициент линейной парной корреляции может быть определен через коэффициент регрессии b:

1.2. Уравнение регрессии (оценка уравнения регрессии).

Линейное уравнение регрессии имеет вид y = -3.46 x + 1379.33
Теоретическое уравнение регрессии


Коэффициентам уравнения линейной регрессии можно придать экономический смысл.
Коэффициент b = -3.46 показывает среднее изменение результативного показателя (в единицах измерения у) с повышением или понижением величины фактора х на единицу его измерения. В данном примере с увеличением на 1 единицу y понижается в среднем на -3.46.
Коэффициент a = 1379.33 формально показывает прогнозируемый уровень у, но только в том случае, если х=0 находится близко с выборочными значениями.
Но если х=0 находится далеко от выборочных значений х, то буквальная интерпретация может привести к неверным результатам, и даже если линия регрессии довольно точно описывает значения наблюдаемой выборки, нет гарантий, что также будет при экстраполяции влево или вправо.
Подставив в уравнение регрессии соответствующие значения х, можно определить выровненные (предсказанные) значения результативного показателя y(x) для каждого наблюдения.
Связь между у и х определяет знак коэффициента регрессии b (если > 0 – прямая связь, иначе - обратная). В нашем примере связь обратная.
1.3. Коэффициент эластичности.
Коэффициенты регрессии (в примере b) нежелательно использовать для непосредственной оценки влияния факторов на результативный признак в том случае, если существует различие единиц измерения результативного показателя у и факторного признака х.
Для этих целей вычисляются коэффициенты эластичности и бета - коэффициенты.
Средний коэффициент эластичности E показывает, на сколько процентов в среднем по совокупности изменится результат у от своей средней величины при изменении фактора x на 1% от своего среднего значения.
Коэффициент эластичности находится по формуле:


Коэффициент эластичности меньше 1. Следовательно, при изменении Х на 1%, Y изменится менее чем на 1%. Другими словами - влияние Х на Y не существенно.
Бета – коэффициент показывает, на какую часть величины своего среднего квадратичного отклонения изменится в среднем значение результативного признака при изменении факторного признака на величину его среднеквадратического отклонения при фиксированном на постоянном уровне значении остальных независимых переменных:

Т.е. увеличение x на величину среднеквадратического отклонения Sx приведет к уменьшению среднего значения Y на 0.74 среднеквадратичного отклонения Sy.
1.4. Ошибка аппроксимации.
Оценим качество уравнения регрессии с помощью ошибки абсолютной аппроксимации. Средняя ошибка аппроксимации - среднее отклонение расчетных значений от фактических:


Поскольку ошибка меньше 15%, то данное уравнение можно использовать в качестве регрессии.
Дисперсионный анализ.
Задача дисперсионного анализа состоит в анализе дисперсии зависимой переменной:
∑(yi - ycp)2 = ∑(y(x) - ycp)2 + ∑(y - y(x))2
где
∑(yi - ycp)2 - общая сумма квадратов отклонений;
∑(y(x) - ycp)2 - сумма квадратов отклонений, обусловленная регрессией («объясненная» или «факторная»);
∑(y - y(x))2 - остаточная сумма квадратов отклонений.
Теоретическое корреляционное отношение для линейной связи равно коэффициенту корреляции rxy.
Для любой формы зависимости теснота связи определяется с помощью множественного коэффициента корреляции:

Данный коэффициент является универсальным, так как отражает тесноту связи и точность модели, а также может использоваться при любой форме связи переменных. При построении однофакторной корреляционной модели коэффициент множественной корреляции равен коэффициенту парной корреляции rxy.
1.6. Коэффициент детерминации.
Квадрат (множественного) коэффициента корреляции называется коэффициентом детерминации, который показывает долю вариации результативного признака, объясненную вариацией факторного признака.
Чаще всего, давая интерпретацию коэффициента детерминации, его выражают в процентах.
R2= -0.742 = 0.5413
т.е. в 54.13 % случаев изменения х приводят к изменению y. Другими словами - точность подбора уравнения регрессии - средняя. Остальные 45.87 % изменения Y объясняются факторами, не учтенными в модели.
x y x 2 y 2 x • y y(x) (yi-ycp) 2 (y-y(x))2 (xi-xcp)2 |y - yx|:y
161 790 25921 624100 127190 822.83 5575.11 1077.82 967.21 0.0416
183 570 33489 324900 104310 746.79 21121.78 31253.79 82.81 0.31
149 860 22201 739600 128140 864.31 20928.44 18.56 1857.61 0.005009
119 1010 14161 1020100 120190 968 86828.44 1763.76 5343.61 0.0416
230 520 52900 270400 119600 584.33 38155.11 4138.64 1436.41 0.12
201 650 40401 422500 130650 684.57 4268.44 1195.12 79.21 0.0532
278 570 77284 324900 158460 418.42 21121.78 22976.29 7378.81 0.27
219 620 47961 384400 135780 622.35 9088.44 5.54 723.61 0.003796
180 730 32400 532900 131400 757.16 215.11 737.5 146.41 0.0372
185 730 34225 532900 135050 739.87 215.11 97.5 50.41 0.0135
139 690 19321 476100 95910 898.87 641.78 43627.96 2819.61 0.3
129 1060 16641 1123600 136740 933.44 118795.11 16017.94 3981.61 0.12
91 1860 8281 3459600 169260 1064.78 1310261.78 632367.41 10221.21 0.43
132 840 17424 705600 110880 923.07 15541.78 6900.38 3612.01 0.0989
160 800 25600 640000 128000 826.29 7168.44 690.99 1030.41 0.0329
290 490 84100 240100 142100 376.94 50775.11 12781.94 9584.41 0.23
160 800 25600 640000 128000 826.29 7168.44 690.99 1030.41 0.0329
231 510 53361 260100 117810 580.88 42161.78 5023.38 1513.21 0.14
316 450 99856 202500 142200 287.07 70401.78 26544.89 15351.21 0.36
213 540 45369 291600 115020 643.09 30741.78 10628.09 436.81 0.19
138 820 19044 672400 113160 902.33 10955.11 6778.16 2926.81 0.1
139 690 19321 476100 95910 898.87 641.78 43627.96 2819.61 0.3
180 580 32400 336400 104400 757.16 18315.11 31384.56 146.41 0.31
230 510 52900 260100 117300 584.33 42161.78 5525.29 1436.41 0.15
180 740 32400 547600 133200 757.16 608.44 294.36 146.41 0.0232
210 630 44100 396900 132300 653.46 7281.78 550.47 320.41 0.0372
290 480 84100 230400 139200 376.94 55381.78 10620.79 9584.41 0.21
270 560 72900 313600 151200 446.07 24128.44 12979.45 6068.41 0.2
210 550 44100 302500 115500 653.46 27335.11 10704.41 320.41 0.19
150 810 22500 656100 121500 860.85 8961.78 2585.89 1772.41 0.0628
5763 21460 1200261 17408000 3800360 21460 2056946.67 943589.84 93188.7 4.42

2. Оценка параметров уравнения регрессии.
2.1. Значимость коэффициента корреляции.

По таблице Стьюдента с уровнем значимости α=0.05 и степенями свободы k=28 находим tкрит:
tкрит (n-m-1;α/2) = (28;0.025) = 2.048
где m = 1 - количество объясняющих переменных.
Если tнабл > tкритич, то полученное значение коэффициента корреляции признается значимым (нулевая гипотеза, утверждающая равенство нулю коэффициента корреляции, отвергается).
Поскольку tнабл > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим
В парной линейной регрессии t2r = t2b и тогда проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии.

2.3. Анализ точности определения оценок коэффициентов регрессии.
Несмещенной оценкой дисперсии возмущений является величина:

S2y = 33699.64 - необъясненная дисперсия (мера разброса зависимой переменной вокруг линии регрессии).

Sy = 183.57 - стандартная ошибка оценки (стандартная ошибка регрессии).
Sa - стандартное отклонение случайной величины a.

Sb - стандартное отклонение случайной величины b.

2.4. Доверительные интервалы для зависимой переменной.
Экономическое прогнозирование на основе построенной модели предполагает, что сохраняются ранее существовавшие взаимосвязи переменных и на период упреждения.
Для прогнозирования зависимой переменной результативного признака необходимо знать прогнозные значения всех входящих в модель факторов.
Прогнозные значения факторов подставляют в модель и получают точечные прогнозные оценки изучаемого показателя.
(a + bxp ± ε)
где

Рассчитаем границы интервала, в котором будет сосредоточено 95% возможных значений Y при неограниченно большом числе наблюдений и Xp = 211

(1379.33 -3.46*211 ± 72.48)
(577.53;722.49)
С вероятностью 95% можно гарантировать, что значения Y при неограниченно большом числе наблюдений не выйдет за пределы найденных интервалов.
Индивидуальные доверительные интервалы для Y при данном значении X.
(a + bxi ± ε)
где

xi y = 1379.33 + -3.46xi εi ymin ymax
161 822.83 384.09 438.74 1206.92
183 746.79 382.34 364.45 1129.13
149 864.31 385.84 478.46 1250.15
119 968 392.64 575.37 1360.64
230 584.33 385.02 199.32 969.35
201 684.57 382.33 302.24 1066.9
278 418.42 396.55 21.87 814.97
219 622.35 383.61 238.75 1005.96
180 757.16 382.47 374.69 1139.62
185 739.87 382.28 357.6 1122.15
139 898.87 387.73 511.14 1286.6
129 933.44 390 543.44 1323.43
91 1064.78 401.95 662.84 1466.73
132 923.07 389.28 533.79 1312.35
160 826.29 384.21 442.07 1210.5
290 376.94 400.74 -23.8 777.69
160 826.29 384.21 442.07 1210.5
231 580.88 385.17 195.71 966.04
316 287.07 411.51 -124.44 698.59
213 643.09 383.04 260.05 1026.13
138 902.33 387.94 514.39 1290.27
139 898.87 387.73 511.14 1286.6
180 757.16 382.47 374.69 1139.62
230 584.33 385.02 199.32 969.35
180 757.16 382.47 374.69 1139.62
210 653.46 382.81 270.65 1036.27
290 376.94 400.74 -23.8 777.69
270 446.07 394.03 52.04 840.11
210 653.46 382.81 270.65 1036.27

С вероятностью 95% можно гарантировать, что значения Y при неограниченно большом числе наблюдений не выйдет за пределы найденных интервалов.
2.5. Проверка гипотез относительно коэффициентов линейного уравнения регрессии.
1) t-статистика. Критерий Стьюдента.
С помощью МНК мы получили лишь оценки параметров уравнения регрессии, которые характерны для конкретного статистического наблюдения (конкретного набора значений x и y).
Для оценки статистической значимости коэффициентов регрессии и корреляции рассчитываются t-критерий Стьюдента и доверительные интервалы каждого из показателей. Выдвигается гипотеза Н0 о случайной природе показателей, т.е. о незначимом их отличии от нуля.
Чтобы проверить, значимы ли параметры, т.е. значимо ли они отличаются от нуля для генеральной совокупности используют статистические методы проверки гипотез.
В качестве основной (нулевой) гипотезы выдвигают гипотезу о незначимом отличии от нуля параметра или статистической характеристики в генеральной совокупности. Наряду с основной (проверяемой) гипотезой выдвигают альтернативную (конкурирующую) гипотезу о неравенстве нулю параметра или статистической характеристики в генеральной совокупности.
Проверим гипотезу H0 о равенстве отдельных коэффициентов регрессии нулю (при альтернативе H1 не равно) на уровне значимости α=0.05.
В случае если основная гипотеза окажется неверной, мы принимаем альтернативную. Для проверки этой гипотезы используется t-критерий Стьюдента.
Найденное по данным наблюдений значение t-критерия (его еще называют наблюдаемым или фактическим) сравнивается с табличным (критическим) значением, определяемым по таблицам распределения Стьюдента (которые обычно приводятся в конце учебников и практикумов по статистике или эконометрике).
Табличное значение определяется в зависимости от уровня значимости (α) и числа степеней свободы, которое в случае линейной парной регрессии равно (n-2), n-число наблюдений.
Если фактическое значение t-критерия больше табличного (по модулю), то основную гипотезу отвергают и считают, что с вероятностью (1-α) параметр или статистическая характеристика в генеральной совокупности значимо отличается от нуля.
Если фактическое значение t-критерия меньше табличного (по модулю), то нет оснований отвергать основную гипотезу, т.е. параметр или статистическая характеристика в генеральной совокупности незначимо отличается от нуля при уровне значимости α.
tкрит (n-m-1;α/2) = (28;0.025) = 2.048

Поскольку 5.75 > 2.048, то статистическая значимость коэффициента регрессии b подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).

Поскольку 11.47 > 2.048, то статистическая значимость коэффициента регрессии a подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).
Доверительный интервал для коэффициентов уравнения регрессии.
Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95% будут следующими:
(b - tкрит Sb; b + tкрит Sb)
(-3.4565 - 2.048 • 0.6; -3.4565 + 2.048 • 0.6)
(-4.6881;-2.2249)
С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.
(a - tкрит Sa; a + tкрит Sa)
(1379.3255 - 2.048 • 120.28; 1379.3255 + 2.048 • 120.28)
(1132.9836;1625.6673)
С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.
2) F-статистика. Критерий Фишера.
Проверка значимости модели регрессии проводится с использованием F-критерия Фишера, расчетное значение которого находится как отношение дисперсии исходного ряда наблюдений изучаемого показателя и несмещенной оценки дисперсии остаточной последовательности для данной модели.
Если расчетное значение с k1=(m) и k2=(n-m-1) степенями свободы больше табличного при заданном уровне значимости, то модель считается значимой.

где m – число факторов в модели.
Оценка статистической значимости парной линейной регрессии производится по следующему алгоритму:
1. Выдвигается нулевая гипотеза о том, что уравнение в целом статистически незначимо: H0: R2=0 на уровне значимости α.
2. Далее определяют фактическое значение F-критерия:


где m=1 для парной регрессии.
3. Табличное значение определяется по таблицам распределения Фишера для заданного уровня значимости, принимая во внимание, что число степеней свободы для общей суммы квадратов (большей дисперсии) равно 1 и число степеней свободы остаточной суммы квадратов (меньшей дисперсии) при линейной регрессии равно n-2.
Fтабл - это максимально возможное значение критерия под влиянием случайных факторов при данных степенях свободы и уровне значимости α. Уровень значимости α - вероятность отвергнуть правильную гипотезу при условии, что она верна. Обычно α принимается равной 0,05 или 0,01.
4. Если фактическое значение F-критерия меньше табличного, то говорят, что нет основания отклонять нулевую гипотезу.
В противном случае, нулевая гипотеза отклоняется и с вероятностью (1-α) принимается альтернативная гипотеза о статистической значимости уравнения в целом.
Табличное значение критерия со степенями свободы k1=1 и k2=28, Fтабл = 4.2
Поскольку фактическое значение F > Fтабл, то коэффициент детерминации статистически значим (найденная оценка уравнения регрессии статистически надежна).
Связь между F-критерием Фишера и t-статистикой Стьюдента выражается равенством:
Проверка на наличие автокорреляции остатков.
Важной предпосылкой построения качественной регрессионной модели по МНК является независимость значений случайных отклонений от значений отклонений во всех других наблюдениях. Это гарантирует отсутствие коррелированности между любыми отклонениями и, в частности, между соседними отклонениями.
Автокорреляция (последовательная корреляция) определяется как корреляция между наблюдаемыми показателями, упорядоченными во времени (временные ряды) или в пространстве (перекрестные ряды). Автокорреляция остатков (отклонений) обычно встречается в регрессионном анализе при использовании данных временных рядов и очень редко при использовании перекрестных данных.
В экономических задачах значительно чаще встречается положительная автокорреляция, нежели отрицательная автокорреляция. В большинстве случаев положительная автокорреляция вызывается направленным постоянным воздействием некоторых неучтенных в модели факторов.
Отрицательная автокорреляция фактически означает, что за положительным отклонением следует отрицательное и наоборот. Такая ситуация может иметь место, если ту же зависимость между спросом на прохладительные напитки и доходами рассматривать по сезонным данным (зима-лето).
Среди основных причин, вызывающих автокорреляцию, можно выделить следующие:
1. Ошибки спецификации. Неучет в модели какой-либо важной объясняющей переменной либо неправильный выбор формы зависимости обычно приводят к системным отклонениям точек наблюдения от линии регрессии, что может обусловить автокорреляцию.
2. Инерция. Многие экономические показатели (инфляция, безработица, ВНП и т.д.) обладают определенной цикличностью, связанной с волнообразностью деловой активности. Поэтому изменение показателей происходит не мгновенно, а обладает определенной инертностью.
3. Эффект паутины. Во многих производственных и других сферах экономические показатели реагируют на изменение экономических условий с запаздыванием (временным лагом).
4. Сглаживание данных. Зачастую данные по некоторому продолжительному временному периоду получают усреднением данных по составляющим его интервалам. Это может привести к определенному сглаживанию колебаний, которые имелись внутри рассматриваемого периода, что в свою очередь может служить причиной автокорреляции.
Последствия автокорреляции схожи с последствиями гетероскедастичности: выводы по t- и F-статистикам, определяющие значимость коэффициента регрессии и коэффициента детерминации, возможно, будут неверными.
Обнаружение автокорреляции
1. Графический метод
Есть ряд вариантов графического определения автокорреляции. Один из них увязывает отклонения εi с моментами их получения i. При этом по оси абсцисс откладывают либо время получения статистических данных, либо порядковый номер наблюдения, а по оси ординат – отклонения εi (либо оценки отклонений).
Естественно предположить, что если имеется определенная связь между отклонениями, то автокорреляция имеет место. Отсутствие зависимости скорее всего будет свидетельствовать об отсутствии автокорреляции.
Автокорреляция становится более наглядной, если построить график зависимости εi от εi-1

Обнаружение автокорреляции графическим методом
Рисунок – Обнаружение автокорреляции графическим методом


Судя по графику, определенной зависимости не наблюдается.
2. Коэффициент автокорреляции.

Если коэффициент автокорреляции rei < 0.5, то есть основания утверждать, что автокорреляция отсутствует.
Выборочные средние.



Выборочные дисперсии:


Среднеквадратическое отклонение



Поскольку, rei < 0.1, то можно с уверенностью сказать, что автокорреляция отсутствует.
3. Критерий Дарбина-Уотсона.
Этот критерий является наиболее известным для обнаружения автокорреляции.
При статистическом анализе уравнения регрессии на начальном этапе часто проверяют выполнимость одной предпосылки: условия статистической независимости отклонений между собой. При этом проверяется некоррелированность соседних величин ei.
y y(x) ei = y-y(x) e2 (ei - ei-1)2
790 822.83 -32.83 1077.82 0
570 746.79 -176.79 31253.79 20723.67
860 864.31 -4.31 18.56 29749.1
1010 968 42 1763.76 2144.18
520 584.33 -64.33 4138.64 11305.94
650 684.57 -34.57 1195.12 885.76
570 418.42 151.58 22976.29 34651.78
620 622.35 -2.35 5.54 23695.38
730 757.16 -27.16 737.5 615.2
730 739.87 -9.87 97.5 298.68
690 898.87 -208.87 43627.96 39600.46
1060 933.44 126.56 16017.94 112516.69
1860 1064.78 795.22 632367.41 447097.24
840 923.07 -83.07 6900.38 771382.48
800 826.29 -26.29 690.99 3224.17
490 376.94 113.06 12781.94 19416.74
800 826.29 -26.29 690.99 19416.74
510 580.88 -70.88 5023.38 1988.18
450 287.07 162.93 26544.89 54663.29
540 643.09 -103.09 10628.09 70765.94
820 902.33 -82.33 6778.16 431.11
690 898.87 -208.87 43627.96 16013.26
580 757.16 -177.16 31384.56 1005.92
510 584.33 -74.33 5525.29 10572.9
740 757.16 -17.16 294.36 3269.03
630 653.46 -23.46 550.47 39.76
480 376.94 103.06 10620.79 16007.15
560 446.07 113.93 12979.45 118.16
550 653.46 -103.46 10704.41 47258.2
810 860.85 -50.85 2585.89 2767.86
943589.84 1761624.95

Для анализа коррелированности отклонений используют статистику Дарбина-Уотсона:


Критические значения d1 и d2 определяются на основе специальных таблиц для требуемого уровня значимости α, числа наблюдений n = 30 и количества объясняющих переменных m=1.
Автокорреляция отсутствует, если выполняется следующее условие:
d1 < DW и d2 < DW < 4 - d2.
Не обращаясь к таблицам, можно пользоваться приблизительным правилом и считать, что автокорреляция остатков отсутствует, если 1.5 < DW < 2.5. Поскольку 1.5 < 1.87 < 2.5, то автокорреляция остатков отсутствует.
Для более надежного вывода целесообразно обращаться к табличным значениям.
По таблице Дарбина-Уотсона для n=30 и k=1 (уровень значимости 5%) находим: d1 = 1.35; d2 = 1.49.
Поскольку 1.35 < 1.87 и 1.49 < 1.87 < 4 - 1.49, то автокорреляция остатков отсутствует.
Проверка наличия гетероскедастичности.
1) Методом графического анализа остатков.
В этом случае по оси абсцисс откладываются значения объясняющей переменной X, а по оси ординат либо отклонения ei, либо их квадраты e2i.
Если имеется определенная связь между отклонениями, то гетероскедастичность имеет место. Отсутствие зависимости скорее всего будет свидетельствовать об отсутствии гетероскедастичности.
2) При помощи теста ранговой корреляции Спирмена.
Коэффициент ранговой корреляции Спирмена.
Присвоим ранги признаку ei и фактору X. Найдем сумму разности квадратов d2.
По формуле вычислим коэффициент ранговой корреляции Спирмена.
X ei ранг X, dx ранг ei, dy (dx - dy)2
161 32.83 10 16 36
183 176.79 12 26 196
149 4.31 7 10 9
119 -42 2 8 36
230 64.33 18 19 1
201 34.57 14 17 9
278 -151.58 21 3 324
219 2.35 17 9 64
180 27.16 11 15 16
185 9.87 13 11 4
139 208.87 6 28 484
129 -126.56 3 4 1
91 -795.22 1 1 0
132 83.07 4 23 361
160 26.29 9 14 25
290 -113.06 22 6 256
160 26.29 9 14 25
231 70.88 19 20 1
316 -162.93 23 2 441
213 103.09 16 24 64
138 82.33 5 22 289
139 208.87 6 28 484
180 177.16 11 27 256
230 74.33 18 21 9
180 17.16 11 12 1
210 23.46 15 13 4
290 -103.06 22 7 225
270 -113.93 20 5 225
210 103.46 15 25 100
150 50.85 8 18 100
4046


Связь между признаком ei и фактором X слабая и прямая.
Оценка коэффициента ранговой корреляции Спирмена.
Значимость коэффициента ранговой корреляции Спирмена

По таблице Стьюдента находим tтабл:
tтабл (n-m-1;α/2) = (28;0.05/2) = 2.048
Поскольку Tнабл < tтабл , то принимаем гипотезу о равенстве 0 коэффициента ранговой корреляции. Другими словами, коэффициент ранговой корреляции статистически - не значим.
Интервальная оценка для коэффициента корреляции (доверительный интервал).

Доверительный интервал для коэффициента ранговой корреляции
r(-0.2703;0.4701)
Проверим гипотезу H0: гетероскедастичность отсутствует.
Поскольку 2.048 > 0.53, то гипотеза об отсутствии гетероскедастичности принимается.

Перейти к онлайн решению своей задачи

Задать вопрос или оставить комментарий Помощь в решении Поиск Поддержать проект