Построить график функции Точки разрыва функции Построение графика методом дифференциального исчисления Упростить выражение
Примеры решений Показатели вариации Доверительный интервал
Расчет моды и медианы Группировка данных Децили
Проверка гипотез по Пирсону Корреляционная таблица Квартили

Проверка гипотезы о нормальном распределении

Критерий согласия Пирсона: критерий согласия Пирсона

Проверить гипотезу о нормальном распределении по критерию Пирсона. Уровень значимости α=0.05. Данные разбить на 6 интервалов.

Решение находим с помощью калькулятора. Ширина интервала составит:

Xmax - максимальное значение группировочного признака в совокупности.
Xmin - минимальное значение группировочного признака.
Определим границы группы.

Номер группыНижняя границаВерхняя граница
14345.83
245.8348.66
348.6651.49
451.4954.32
554.3257.15
657.1560

Одно и тоже значение признака служит верхней и нижней границами двух смежных (предыдущей и последующей) групп.
Для каждого значения ряда подсчитаем, какое количество раз оно попадает в тот или иной интервал. Для этого сортируем ряд по возрастанию.
4343 - 45.831
48.545.83 - 48.661
4948.66 - 51.491
4948.66 - 51.492
49.548.66 - 51.493
5048.66 - 51.494
5048.66 - 51.495
50.548.66 - 51.496
51.551.49 - 54.321
51.551.49 - 54.322
5251.49 - 54.323
5251.49 - 54.324
5251.49 - 54.325
5251.49 - 54.326
5251.49 - 54.327
5251.49 - 54.328
5251.49 - 54.329
52.551.49 - 54.3210
52.551.49 - 54.3211
5351.49 - 54.3212
5351.49 - 54.3213
5351.49 - 54.3214
53.551.49 - 54.3215
5451.49 - 54.3216
5451.49 - 54.3217
5451.49 - 54.3218
54.554.32 - 57.151
54.554.32 - 57.152
55.554.32 - 57.153
5754.32 - 57.154
57.557.15 - 59.981
57.557.15 - 59.982
5857.15 - 59.983
5857.15 - 59.984
58.557.15 - 59.985
6057.15 - 59.986
Результаты группировки оформим в виде таблицы:
Группы№ совокупностиЧастота fi
43 - 45.8311
45.83 - 48.6621
48.66 - 51.493,4,5,6,7,86
51.49 - 54.329,10,11,12,13,14,15, 16,17,18,19,20,21, 22,23,24,25,2618
54.32 - 57.1527,28,29,304
57.15 - 59.9831,32,33,34,35,366
Таблица для расчета показателей.
ГруппыxiКол-во, fixi * fiНакопленная частота, S|x - xср|*f(x - xср)2*fЧастота, fi/n
43 - 45.8344.42144.4218.8878.910.0278
45.83 - 48.6647.25147.2526.0536.640.0278
48.66 - 51.4950.086300.45819.3462.330.17
51.49 - 54.3252.9118952.29267.072.780.5
54.32 - 57.1555.744222.94309.7523.750.11
57.15 - 59.9858.576351.393631.6166.440.17
361918.7382.7370.861
Для оценки ряда распределения найдем следующие показатели:
Показатели центра распределения.
Средняя взвешенная


Мода
Мода - наиболее часто встречающееся значение признака у единиц данной совокупности.

где x0 – начало модального интервала; h – величина интервала; f2 –частота, соответствующая модальному интервалу; f1 – предмодальная частота; f3 – послемодальная частота.
Выбираем в качестве начала интервала 51.49, так как именно на этот интервал приходится наибольшее количество.

Наиболее часто встречающееся значение ряда – 52.8
Медиана
Медиана делит выборку на две части: половина вариант меньше медианы, половина — больше.
В интервальном ряду распределения сразу можно указать только интервал, в котором будут находиться мода или медиана. Медиана соответствует варианту, стоящему в середине ранжированного ряда. Медианным является интервал 51.49 - 54.32, т.к. в этом интервале накопленная частота S, больше медианного номера (медианным называется первый интервал, накопленная частота S которого превышает половину общей суммы частот).


Таким образом, 50% единиц совокупности будут меньше по величине 53.06
Показатели вариации.
Абсолютные показатели вариации.
Размах вариации - разность между максимальным и минимальным значениями признака первичного ряда.
R = Xmax - Xmin
R = 60 - 43 = 17
Среднее линейное отклонение - вычисляют для того, чтобы учесть различия всех единиц исследуемой совокупности.


Каждое значение ряда отличается от другого не более, чем на 2.3
Дисперсия - характеризует меру разброса около ее среднего значения (мера рассеивания, т.е. отклонения от среднего).


Несмещенная оценка дисперсии - состоятельная оценка дисперсии.


Среднее квадратическое отклонение.

Каждое значение ряда отличается от среднего значения 53.3 не более, чем на 3.21
Оценка среднеквадратического отклонения.

Относительные показатели вариации.
К относительным показателям вариации относят: коэффициент осцилляции, линейный коэффициент вариации, относительное линейное отклонение.
Коэффициент вариации - мера относительного разброса значений совокупности: показывает, какую долю среднего значения этой величины составляет ее средний разброс.

Поскольку v ≤ 30%, то совокупность однородна, а вариация слабая. Полученным результатам можно доверять.
Линейный коэффициент вариации или Относительное линейное отклонение - характеризует долю усредненного значения признака абсолютных отклонений от средней величины.

Проверка гипотез о виде распределения.
1. Проверим гипотезу о том, что Х распределено по нормальному закону с помощью критерия согласия Пирсона.

где pi — вероятность попадания в i-й интервал случайной величины, распределенной по гипотетическому закону
Для вычисления вероятностей pi применим формулу и таблицу функции Лапласа

где s = 3.21, xср = 53.3
Теоретическая (ожидаемая) частота равна ni = npi, где n = 36
Интервалы группировкиНаблюдаемая частота nix1 = (xi-x)/sx2 = (xi+1-x)/sФ(x1)Ф(x2)Вероятность попадания в i-й интервал, pi = Ф(x2) - Ф(x1)Ожидаемая частота, 36piСлагаемые статистики Пирсона, Ki
43 - 45.831-3.16-2.29-0.5-0.490.010.361.14
45.83 - 48.661-2.29-1.42-0.49-0.420.06572.370.79
48.66 - 51.496-1.42-0.56-0.42-0.210.217.610.34
51.49 - 54.3218-0.560.31-0.210.130.3412.162.8
54.32 - 57.1540.311.180.130.380.269.273
57.15 - 59.9861.182.060.380.480.09733.51.78
36 9.84
Определим границу критической области. Так как статистика Пирсона измеряет разницу между эмпирическим и теоретическим распределениями, то чем больше ее наблюдаемое значение Kнабл, тем сильнее довод против основной гипотезы.
Поэтому критическая область для этой статистики всегда правосторонняя: [Kkp;+∞).
Её границу Kkp = χ2(k-r-1;α) находим по таблицам распределения χ2 и заданным значениям s, k (число интервалов), r=2 (параметры xcp и s оценены по выборке).
Kkp = 7.81473; Kнабл = 9.84
Наблюдаемое значение статистики Пирсона попадает в критическую область: Кнабл > Kkp, поэтому есть основания отвергать основную гипотезу. Данные выборки распределены не по нормальному закону.

Перейти к онлайн решению своей задачи Проверка гипотезы о нормальном распределении

Пример №2. Используя критерий Пирсона, при уровне значимости 0.05 проверить, согласуется ли гипотеза о нормальном распределении генеральной совокупности X с эмпирическим распределением выборки объема n = 200.

Решение находим с помощью калькулятора.
Таблица для расчета показателей.

xiКол-во, fixi·fiНакопленная частота, S(x-x)·f(x-x)2·f(x-x)3·fЧастота, fi/n
5157515114.45873.25-6662.920.075
72618241146.38824.12-4639.790.13
9252256690.75329.42-1195.80.13
11303309648.979.71-129.920.15
13263381229.623.561.320.13
152131514349.77117.95279.550.11
1724408167104.88458.332002.880.12
1920380187127.4811.545169.50.1
2113273200108.81910.747622.890.065
2002526 800.964408.622447.71
Показатели центра распределения.
Средняя взвешенная


Показатели вариации.
Абсолютные показатели вариации.
Размах вариации - разность между максимальным и минимальным значениями признака первичного ряда.
R = Xmax - Xmin
R = 21 - 5 = 16
Дисперсия - характеризует меру разброса около ее среднего значения (мера рассеивания, т.е. отклонения от среднего).


Несмещенная оценка дисперсии - состоятельная оценка дисперсии.


Среднее квадратическое отклонение.

Каждое значение ряда отличается от среднего значения 12.63 не более, чем на 4.7
Оценка среднеквадратического отклонения.

Проверка гипотез о виде распределения.
1. Проверим гипотезу о том, что Х распределено по нормальному закону с помощью критерия согласия Пирсона.

где n*i - теоретические частоты:

Вычислим теоретические частоты, учитывая, что:
n = 200, h=2 (ширина интервала), σ = 4.7, xср = 12.63
ixiuiφin*i
15-1.63 0,10579.01
27-1.2 0,194216.55
39-0.77 0,294325.07
411-0.35 0,375231.97
5130.0788 0,397733.88
6150.5 0,350329.84
7170.93 0,256521.85
8191.36 0,158213.48
9211.78 0,08046.85
Сравним эмпирические и теоретические частоты. Составим расчетную таблицу, из которой найдем наблюдаемое значение критерия:
Χ2=
inin*ini-n*i(ni-n*i)2(ni-n*i)2/n*i
1159.01-5.9935.943.99
22616.55-9.4589.395.4
32525.070.07340.005390.000215
43031.971.973.860.12
52633.887.8862.141.83
62129.848.8478.222.62
72421.85-2.154.610.21
82013.48-6.5242.533.16
9136.85-6.1537.825.52
200200 22.86
Определим границу критической области. Так как статистика Пирсона измеряет разницу между эмпирическим и теоретическим распределениями, то чем больше ее наблюдаемое значение Kнабл, тем сильнее довод против основной гипотезы.
Поэтому критическая область для этой статистики всегда правосторонняя: [Kkp;+∞).
Её границу Kkp = χ2(k-r-1;α) находим по таблицам распределения «хи-квадрат» и заданным значениям σ, k = 9, r=2 (параметры xcp и σ оценены по выборке).
Kkp(0.05;6) = 12.59159; Kнабл = 22.86
Наблюдаемое значение статистики Пирсона попадает в критическую область: Кнабл > Kkp, поэтому есть основания отвергать основную гипотезу. Данные выборки распределены не по нормальному закону. Другими словами, эмпирические и теоретические частоты различаются значимо.

Пример 2. Используя критерий Пирсона, при уровне значимости 0.05 проверить, согласуется ли гипотеза о нормальном распределении генеральной совокупности X с эмпирическим распределением выборки объема n = 200.
Решение.
Таблица для расчета показателей.

xiКол-во, fixi·fiНакопленная частота, S(x-x)·f(x-x)2·f(x-x)3·fЧастота, fi/n
0.361.865.775.55-5.340.03
0.594.5156.865.23-3.980.045
0.72618.24114.618.21-4.620.13
0.92522.5669.053.28-1.190.13
1.13033964.860.79-0.130.15
1.32633.81220.990.03750.001430.13
1.52131.514351.190.280.11
1.72440.816710.514.62.020.12
1.9203818712.768.145.190.1
2.1816.81956.75.624.710.04
2.3511.52005.195.395.590.025
200252.4 82.348.032.541
Показатели центра распределения.
Средняя взвешенная


Показатели вариации.
Абсолютные показатели вариации.
Размах вариации - разность между максимальным и минимальным значениями признака первичного ряда.
R = Xmax - Xmin
R = 2.3 - 0.3 = 2
Дисперсия - характеризует меру разброса около ее среднего значения (мера рассеивания, т.е. отклонения от среднего).


Несмещенная оценка дисперсии - состоятельная оценка дисперсии.


Среднее квадратическое отклонение.

Каждое значение ряда отличается от среднего значения 1.26 не более, чем на 0.49
Оценка среднеквадратического отклонения.

Проверка гипотез о виде распределения.
1. Проверим гипотезу о том, что Х распределено по нормальному закону с помощью критерия согласия Пирсона.

где n*i - теоретические частоты:

Вычислим теоретические частоты, учитывая, что:
n = 200, h=0.2 (ширина интервала), σ = 0.49, xср = 1.26
ixiuiφin*i
10.3-1.96 0,05734.68
20.5-1.55 0,11829.65
30.7-1.15 0,205916.81
40.9-0.74 0,303424.76
51.1-0.33 0,376530.73
61.30.0775 0,397732.46
71.50.49 0,353828.88
81.70.89 0,266121.72
91.91.3 0,169113.8
102.11.71 0,09097.42
112.32.12 0,04223.44
Сравним эмпирические и теоретические частоты. Составим расчетную таблицу, из которой найдем наблюдаемое значение критерия:
Χ2=
inin*ini-n*i(ni-n*i)2(ni-n*i)2/n*i
164.68-1.321.750.37
299.650.650.420.0435
32616.81-9.1984.535.03
42524.76-0.240.05550.00224
53030.730.730.530.0174
62632.466.4641.751.29
72128.887.8862.072.15
82421.72-2.285.20.24
92013.8-6.238.412.78
1087.42-0.580.340.0454
1153.44-1.562.420.7
200200 12.67
Определим границу критической области. Так как статистика Пирсона измеряет разницу между эмпирическим и теоретическим распределениями, то чем больше ее наблюдаемое значение Kнабл, тем сильнее довод против основной гипотезы.
Поэтому критическая область для этой статистики всегда правосторонняя: [Kkp;+∞).
Её границу Kkp = χ2(k-r-1;α) находим по таблицам распределения «хи-квадрат» и заданным значениям σ, k = 11, r=2 (параметры xcp и σ оценены по выборке).
Kkp(0.05;8) = 15.50731; Kнабл = 12.67
Наблюдаемое значение статистики Пирсона не попадает в критическую область: Кнабл < Kkp, поэтому нет оснований отвергать основную гипотезу. Справедливо предположение о том, что данные выборки имеют нормальное распределение.