Квартили
Квартили – это значения признака в ранжированном ряду распределения, выбранные таким образом, что 25% единиц совокупности будут меньше по величине Q1; 25% будут заключены между Q1 и Q2; 25% - между Q2 и Q3; остальные 25% превосходят Q3.,
Методические рекомендации: для расчета показателя квартили
воспользуйтесь сервисом Показатели вариации.
Пример. Из исходных данных получим интервальный вариационный ряд. Ширина интервала составит:
Группы | x | Кол-во f | x·f | S | (x-xср)·f | (x-xср)2·f | (x-xср)3·f | (x-xср)4·f | Частота |
148 - 158 | 153 | 9 | 1377 | 9 | 112.5 | 1406.25 | -17578.13 | 219726.56 | 0.45 |
158 - 168 | 163 | 3 | 489 | 12 | 7.5 | 18.75 | -46.88 | 117.19 | 0.15 |
168 - 178 | 173 | 3 | 519 | 15 | 22.5 | 168.75 | 1265.63 | 9492.19 | 0.15 |
178 - 188 | 183 | 4 | 732 | 19 | 70 | 1225 | 21437.5 | 375156.25 | 0.2 |
188 - 198 | 193 | 1 | 193 | 20 | 27.5 | 756.25 | 20796.88 | 571914.06 | 0.05 |
Итого | 20 | 3310 | 0 | 240 | 3575 | 25875 | 1176406.25 | 1 |
Для оценки ряда распределения найдем следующие показатели:
Показатели центра распределения.
Средняя взвешенная
Мода
Выбираем в качестве начала интервала 148, так как именно на этот интервал приходится наибольшее количество
Наиболее часто встречающееся значение ряда – 154
Медиана
Медиана делит выборку на две части: половина вариант меньше медианы, половина — больше
Таким образом, 50% единиц совокупности будут меньше по величине 161.33
Расчет квартили
Таким образом, 25% единиц совокупности будут меньше по величине 153.56
Q2 совпадает с медианой, Q2 = 161.33
Остальные 25% превосходят значение 178.
Квартильный коэффициент дифференциации.
k = Q1 / Q3
k = 153.56 / 178 = 0.86
Децили (децентили)
Децили – это значения признака в ранжированном ряду распределения, выбранные таким образом, что 10% единиц совокупности будут меньше по величине D1; 80% будут заключены между D1 и D9; остальные 10% превосходят D9
Таким образом, 10% единиц совокупности будут меньше по величине 150.22
Остальные 10% превосходят 185.5
Показатели вариации.
Размах вариации
R = Xmax - Xmin
R = 198 - 148 = 50
Среднее линейное отклонение
Каждое значение ряда отличается от другого не более, чем на 12
Дисперсия
Несмещенная оценка дисперсии.
Среднее квадратическое отклонение.
Каждое значение ряда отличается от среднего значения 165.5 не более, чем на 13.37
Оценка среднеквадратического отклонения.
Коэффициент вариации
Поскольку v<30%, то совокупность однородна, а вариация слабая. Полученным результатам можно доверять.
Показатели формы распределения.
Коэффициент осцилляции
Относительное линейное отклонение
Относительный показатель квартильной вариации
Степень асимметрии
Симметричным является распределение, в котором частоты любых двух вариантов, равностоящих в обе стороны от центра распределения, равны между собой.
Положительная величина указывает на наличие правосторонней асимметрии
Для симметричных распределений рассчитывается показатель эксцесса (островершинности). Эксцесс представляет собой выпад вершины эмпирического распределения вверх или вниз от вершины кривой нормального распределения.
Ex > 0 - островершинное распределение
Интервальное оценивание центра генеральной совокупности.
Доверительный интервал для генерального среднего
Поскольку n<=30, то определяем значение tkp по таблице распределения Стьюдента
По таблице Стьюдента находим Tтабл
Ф(tkp) = 1- p = 1- 0.954 = 0.05
Tтабл (n-1;α) = (19;0.05) = 1.729
(165.5 - 5.30;165.5 + 5.30) = (160.2;170.8)
С вероятностью 0.954 можно утверждать, что среднее значение при выборке большего объема не выйдет за пределы найденного интервала.
Доверительный интервал для дисперсии.
Вероятность выхода за нижнюю границу равна 0.05 / 2 = 0.025. Для количества степеней свободы k = 19, по таблице распределения хи-квадрат находим:
χ2(19) = 32.85233
Случайная ошибка дисперсии:
(188.16 – 108,87; 188.16 + 108,87)
(79.3; 297,03)
Интервальное оценивание генеральной доли (вероятности события).
Доверительный интервал для генеральной доли.
Поскольку n<=30, то определяем значение tkp по таблице распределения Стьюдента
По таблице Стьюдента находим Tтабл
Ф(tkp) = 1 - p = 1- 0.954 = 0.05
Tтабл (n-1;α) = (19;0.05) = 1.729
Доля i-ой группы fi / ∑f | Средняя ошибка выборки для генеральной доли, ε | Нижняя граница доли, p* + ε | Верхняя граница доли, p* + ε |
0.45 | 0.34 | 0.56 | |
0.15 | 0.0702 | 0.23 | |
0.15 | 0.0702 | 0.23 | |
0.2 | 0.11 | 0.29 | |
0.05 | 0.0013 | 0.0987 |
С вероятностью 0.954 при большем объеме выборке эти доли будут находиться в заданных интервалах.
Проверка гипотез о виде распределения.
1. Проверим гипотезу о том, что Х распределено по нормальному закону с помощью критерия согласия Пирсона.
где pi — вероятность попадания в i-й интервал случайной величины, распределенной по гипотетическому закону
Для вычисления вероятностей pi применим формулу и таблицу функции Лапласа
Интервалы группировки | Наблюдаемая частота ni | Ф(xi) | Ф(xi+1) | Вероятность pi попадания в i-й интервал | Ожидаемая частота npi | Слагаемые статистики Пирсона Ki |
148 - 158 | 9 | 0.21 | 0.4 | 0.19 | 3.82 | 7.03 |
158 - 168 | 3 | 0.0753 | 0.21 | 0.13 | 2.67 | 0.0407 |
168 - 178 | 3 | 0.32 | 0.0753 | 0.25 | 4.92 | 0.75 |
178 - 188 | 4 | 0.45 | 0.32 | 0.13 | 2.59 | 0.77 |
188 - 198 | 1 | 0.49 | 0.45 | 0.0408 | 0.82 | 0.0414 |
20 | 8.64 |
Определим границу критической области. Так как статистика Пирсона измеряет разницу между эмпирическим и теоретическим распределениями, то чем больше ее наблюдаемое значение Kнабл, тем сильнее довод против основной гипотезы.
Поэтому критическая область для этой статистики всегда правосторонняя: [Kkp;+∞).
Её границу Kkp = χ2(k-r-1;α) находим по таблицам распределения «хи-квадрат» и заданным значениям s, k (число интервалов), r=2 (параметры xcp и s оценены по выборке).
Kkp = 6; Kнабл = 8.64
Наблюдаемое значение статистики Пирсона попадает в критическую область: Кнабл > Kkp, поэтому есть основания отвергать основную гипотезу. Данные выборки распределены не по нормальному закону.
Использование квартилей для расчета точечного и интервального прогноза
Двенадцать экспертов оценили перспективный объем продажи механических наручных часов (тыс. шт.).Эксперт | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
Прогноз | 7,8 | 9,6 | 13,1 | 8,4 | 10,2 | 11,6 | 12,5 | 13,6 | 8 | 10 | 9,8 | 10,4 |
Решение. Проранжируем ряд. Для этого сортируем его значения по возрастанию: 7.8 8 8.4 9.6 9.8 10 10.2 10.4 11.6 12.5 13.1 13.6
Медиана - значение признака, которое делит единицы ранжированного ряда на две части. Медиана соответствует варианту, стоящему в середине ранжированного ряда.
Находим середину ранжированного ряда: h = n/2 = 12/2 = 6. Ранжированный ряд включает четное число единиц, следовательно медиана определяется как средняя из двух центральных значений: (10 + 10.2)/2 = 10.1 тыс. шт.
Квартили – это значения признака в ранжированном ряду распределения, выбранные таким образом, что 25% единиц совокупности будут меньше по величине Q1; 25% будут заключены между Q1 и Q2; 25% - между Q2 и Q3; остальные 25% превосходят Q3.
Находим 1/4 ранжированного ряда: h = n/4 = 12/4 = 3. Ранжированный ряд включает четное число единиц, следовательно квартиль Q1 определяется как среднее из двух значений: (8.4 + 9.6)/2 = 9 тыс. шт.
Находим 3/4 ранжированного ряда: h = 3n/4 = 3*12/4 = 9. Q3 = (11.6 + 12.5)/2 = 12.05 тыс. шт.
Точечный прогноз: 10.1 тыс. шт. Интервальный прогноз (9; 12.05).