Показатели вариации

Для задач, где требуется предварительно сгруппировать данные, используют сервис Группировка данных.
Число групп приближенно определяется по формуле Стэрджесса
n = 1 + 3,2log n
n = 1 + 3,2log 50 = 7
Тогда ширина интервала составит:

Группы

x

Кол-во f

x * f

S

(x - x ср) * f

(x - x ср)2 * f

(x - x ср)3 * f

(x - x ср)4 * f

Частота

32.11 - 37.01

34.56

1

34.56

1

17.35

300.88

-5219.13

90531.01

0.02

37.01 - 41.91

39.46

5

197.31

6

62.23

774.51

-9639.61

119974.57

0.1

41.91 - 46.81

44.36

6

266.17

12

45.28

341.65

-2578.11

19454.43

0.12

46.81 - 51.71

49.26

12

591.14

24

31.75

84.02

-222.31

588.22

0.24

51.71 - 56.61

54.16

11

595.78

35

24.79

55.89

125.97

283.93

0.22

56.61 - 61.51

59.06

10

590.62

45

71.54

511.8

3661.4

26193.63

0.2

61.51 - 66.41

63.96

5

319.81

50

60.27

726.49

8757.17

105558.87

0.1

50

2595.39

0

313.21

2795.24

-5114.63

362584.66

1


Для оценки ряда распределения найдем следующие показатели:
Показатели центра распределения.
Средняя взвешенная


Мода

Выбираем в качестве начала интервала 46.81189, так как именно на этот интервал приходится наибольшее количество

Наиболее часто встречающееся значение ряда – 51.01
Медиана
Медиана делит выборку на две части: половина вариант меньше медианы, половина — больше


Таким образом, 50% единиц совокупности будут меньше по величине 52.16

Квартили
Квартили – это значения признака в ранжированном ряду распределения, выбранные таким образом, что 25% единиц совокупности будут меньше по величине Q1; 25% будут заключены между Q1 и Q2; 25% - между Q2 и Q3; остальные 25% превосходят Q3


Таким образом, 25% единиц совокупности будут меньше по величине 47.02
Q2 совпадает с медианой, Q2 = 52.16


Остальные 25% превосходят значение 57.84.
Квартильный коэффициент дифференциации.
k = Q1 / Q3
k = 47.02 / 57.84 = 0.81
Децили (децентили)
Децили – это значения признака в ранжированном ряду распределения, выбранные таким образом, что 10% единиц совокупности будут меньше по величине D1; 80% будут заключены между D1 и D9; остальные 10% превосходят D9


Таким образом, 10% единиц совокупности будут меньше по величине 40.93


Остальные 10% превосходят 61.51

Расчет показателей вариации

.
Размах вариации
R = Xmax - Xmin
R = 66.39923 - 32.11189 = 34.29
Среднее линейное отклонение


Каждое значение ряда отличается от другого не более, чем на 6.26
Дисперсия


Несмещенная оценка дисперсии.


Среднее квадратическое отклонение (средняя ошибка выборки).

Каждое значение ряда отличается от среднего значения 51.91 не более, чем на 7.48
Оценка среднеквадратического отклонения.

Коэффициент вариации

Поскольку v<30%, то совокупность однородна, а вариация слабая. Полученным результатам можно доверять.
Показатели формы распределения.
Коэффициент осцилляции

Относительное линейное отклонение

Относительный показатель квартильной вариации

Степень асимметрии
Симметричным является распределение, в котором частоты любых двух вариантов, равностоящих в обе стороны от центра распределения, равны между собой.


Отрицательный знак свидетельствует о наличии левосторонней асимметрии
Для симметричных распределений рассчитывается показатель эксцесса (островершинности). Эксцесс представляет собой выпад вершины эмпирического распределения вверх или вниз от вершины кривой нормального распределения.

Ex > 0 - островершинное распределение
Интервальное оценивание центра генеральной совокупности.
Доверительный интервал для генерального среднего

Поскольку n>30, то определяем значение tkp по таблицам функции Лапласа
В этом случае 2Ф(tkp) = 1 - γ
Ф(tkp) = (1 - γ)/2 = 0.954/2 = 0.477
По таблице функции Лапласа найдем, при каком tkp значение Ф(tkp) = 0.477
tkp (γ) = (0.477) = 2

(51.91 - 2.13;51.91 + 2.13) = (49.77789;54.03789)
С вероятностью 0.954 можно утверждать, что среднее значение при выборке большего объема не выйдет за пределы найденного интервала.
Доверительный интервал для дисперсии.
Вероятность выхода за нижнюю границу равна 0.05 / 2 = 0.025. Для количества степеней свободы k = 49, по таблице распределения хи-квадрат находим:
χ2(49) = 46.97924
Случайная ошибка дисперсии:


(57.05 – 7,87; 57.05 + 7,87)
(49.18; 64.92)
Интервальное оценивание генеральной доли (вероятности события).
Доверительный интервал для генеральной доли.

Поскольку n>30, то определяем значение tkp по таблицам функции Лапласа
В этом случае 2Ф(tkp) = 1 - γ
Ф(tkp) = (1 - γ)/2 = 0.954/2 = 0.477
По таблице функции Лапласа найдем, при каком tkp значение Ф(tkp) = 0.477
tkp (γ) = (0.477) = 2

Доля i-ой группы fi / ∑f

Средняя ошибка выборки для генеральной доли, ε

Нижняя граница доли, p* + ε

Верхняя граница доли, p* + ε

0.02

0.0002

0.0398

0.1

0.0576

0.14

0.12

0.074

0.17

0.24

0.18

0.3

0.22

0.16

0.28

0.2

0.14

0.26

0.1

0.0576

0.14




С вероятностью 0.954 при большем объеме выборке эти доли будут находиться в заданных интервалах.

Проверка гипотез о виде распределения.
1. Проверим гипотезу о том, что Х распределено по нормальному закону с помощью критерия согласия Пирсона.

где pi — вероятность попадания в i-й интервал случайной величины, распределенной по гипотетическому закону
Для вычисления вероятностей pi применим формулу и таблицу функции Лапласа

Интервалы группировки

Наблюдаемая частота ni

Ф(xi)

Ф(xi+1)

Вероятность pi попадания в i-й интервал

Ожидаемая частота npi

Слагаемые статистики Пирсона Ki

32.11 - 37.01

1

0.48

0.5

0.0198

0.99

0.0001

37.01 - 41.91

5

0.41

0.48

0.0679

3.4

0.76

41.91 - 46.81

6

0.25

0.41

0.16

7.83

0.43

46.81 - 51.71

12

0.012

0.25

0.24

11.99

0

51.71 - 56.61

11

0.24

0.012

0.22

11.19

0.003

56.61 - 61.51

10

0.4

0.24

0.16

8.2

0.4

61.51 - 66.41

5

0.47

0.4

0.0735

3.68

0.48

0

50

0

0

0

0

2.06



Определим границу критической области. Так как статистика Пирсона измеряет разницу между эмпирическим и теоретическим распределениями, то чем больше ее наблюдаемое значение Kнабл, тем сильнее довод против основной гипотезы.
Поэтому критическая область для этой статистики всегда правосторонняя: [Kkp;+∞).
Её границу Kkp = χ2(k-r-1;α) находим по таблицам распределения «хи-квадрат» и заданным значениям s, k (число интервалов), r=2 (параметры xcp и s оценены по выборке).
Kkp = 9.5; Kнабл = 2.06
Наблюдаемое значение статистики Пирсона не попадает в критическую область: Кнабл < Kkp, поэтому нет оснований отвергать основную гипотезу. Справедливо предположение о том, что данные выборки имеют нормальное распределение.
загрузка...