Группировка данных и построение ряда распределения
Группировка – это разбиение совокупности на группы, однородные по какому-либо признаку.Назначение сервиса. С помощью онлайн-калькулятора Вы сможете:
- построить вариационный ряд, построить гистограмму и полигон;
- найти показатели вариации (среднюю, моду (в т.ч. и графическим способом), медиану, размах вариации, квартили, децили, квартильный коэффициент дифференциации, коэффициент вариации и другие показатели);
Интервальный вариационный ряд:
Виды статистических группировок
Вариационный ряд. В случае наблюдений дискретной случайной величины одно и то же значение можно встретить несколько раз. Такие значения xi случайной величины записывают с указанием ni числа раз его появления в n наблюдениях, это и есть частота данного значения.В случае непрерывной случайной величины на практике применяют группировку.
- Типологическая группировка – это разделение исследуемой качественно разнородной совокупности на классы, социально–экономические типы, однородные группы единиц. Для построения данной группировки используйте параметр
Дискретный вариационный ряд
. - Структурной называется группировка, в которой происходит разделение однородной совокупности на группы, характеризующие ее структуру по какому–либо варьирующему признаку. Для построения данной группировки используйте параметр
Интервальный ряд
. - Группировка, выявляющая взаимосвязи между изучаемыми явлениями и их признаками, называется аналитической группировкой (см. аналитическая группировка ряда).
Пример №1. По данным таблицы 2 постройте ряды распределения по 40 коммерческим банкам РФ. По полученным рядам распределения определите: прибыль в среднем на один коммерческий банк, кредитные вложения в среднем на один коммерческий банк, модальное и медианное значение прибыли; квартили, децили, размах вариации, среднее линейное отклонение, среднее квадратическое отклонение, коэффициент вариации.
Решение:
В разделе «Вид статистического ряда» выбираем Дискретный ряд. Нажимаем Вставить из Excel. Количество групп: по формуле Стэрджесса
Принципы построения статистических группировок
Ряд наблюдений, упорядоченных по возрастанию, называется вариационным рядом. Группировочным признаком называется признак, по которому производится разбивка совокупности на отдельные группы. Его называют основанием группировки. В основание группировки могут быть положены как количественные, так и качественные признаки.После определения основания группировки следует решить вопрос о количестве групп, на которые надо разбить исследуемую совокупность.
При использовании персональных компьютеров для обработки статистических данных группировка единиц объекта производится с помощью стандартных процедур.
Одна из таких процедур основана на использовании формулы Стерджесса для определения оптимального числа групп:
Длину частичных интервалов вычисляют как h=(xmax-xmin)/k
Затем подсчитывают числа попаданий наблюдений в эти интервалы, которые принимают за частоты ni. Малочисленные частоты, значения которых меньше 5 (ni < 5), следует объединить. в этом случае надо объединить и соответствующие интервалы.
В качестве новых значений вариант берут середины интервалов xi=(ci-1+ci)/2.
Пример №3.
В результате 5%-ной собственно-случайной выборки получено следующее распределение изделий по содержанию влаги. Рассчитайте:
1) средний процент влажности; 2) показатели, характеризующие вариацию влажности.
Решение получено с помощью калькулятора: Пример №1
Построить вариационный ряд. По найденному ряду построить полигон распределения, гистограмму, кумуляту. Определить моду и медиану.
Скачать решение
Пример. По результатам выборочного наблюдения (выборка А приложение):
а) составьте вариационный ряд;
б) вычислите относительные частоты и накопленные относительные частоты;
в) постройте полигон;
г) составьте эмпирическую функцию распределения;
д) постройте график эмпирической функции распределения;
е) вычислите числовые характеристики: среднее арифметическое, дисперсию, среднее квадратическое отклонение.
Решение
На основе данных, приведенных в Таблице 4 (Приложение 1) и соответствующих Вашему варианту, выполнить:
- На основе структурной группировки построить вариационный частотный и кумулятивный ряды распределения, используя равные закрытые интервалы, приняв число групп равным 6. Результаты представить в виде таблицы и изобразить графически.
- Проанализировать вариационный ряд распределения, вычислив:
- среднее арифметическое значение признака;
- моду, медиану, 1-ый квартиль, 1-ый и 9-тый дециль;
- среднее квадратичное отклонение;
- коэффициент вариации.
- Сделать выводы.
Требуется: ранжировать ряд, построить интервальный ряд распределения, вычислить среднее значение, колеблемость среднего значения, моду и медиану для ранжированного и интервального рядов.
На основе исходных данных построить дискретный вариационный ряд; представить его в виде статистической таблицы и статистических графиков. 2). На основе исходных данных построить интервальный вариационный ряд с равными интервалами. Число интервалов выбрать самостоятельно и объяснить этот выбор. Представить полученный вариационный ряд в виде статистической таблицы и статистических графиков. Указать виды примененных таблиц и графиков.
С целью определения средней продолжительности обслуживания клиентов в пенсионном фонде, число клиентов которого очень велико, по схеме собственно-случайной бесповторной выборки проведено обследование 100 клиентов. Результаты обследования представлены в таблице. Найти:
а) границы, в которых с вероятностью 0.9946 заключено среднее время обслуживания всех клиентов пенсионного фонда;
б) вероятность того, что доля всех клиентов фонда с продолжительностью обслуживания менее 6 минут отличается от доли таких клиентов в выборке не более чем на 10% (по абсолютной величине);
в) объем повторной выборки, при котором с вероятностью 0.9907 можно утверждать, что доля всех клиентов фонда с продолжительностью обслуживания менее 6 минут отличается от доли таких клиентов в выборке не более чем на 10% (по абсолютной величине).
2. По данным задачи 1, используя X2критерий Пирсона, на уровне значимости α = 0,05 проверить гипотезу о том, что случайная величина Х – время обслуживания клиентов – распределена по нормальному закону. Построить на одном чертеже гистограмму эмпирического распределения и соответствующую нормальную кривую.
Скачать решение
Дана выборка из 100 элементов. Необходимо:
- Построить ранжированный вариационный ряд;
- Найти максимальный и минимальный члены ряда;
- Найти размах вариации и количество оптимальных промежутков для построения интервального ряда. Найти длину промежутка интервального ряда;
- Построить интервальный ряд. Найти частоты попадания элементов выборки в составленные промежутки. Найти средние точки каждого промежутка;
- Построить гистограмму и полигон частот. Сравнить с нормальным распределением (аналитически и графически);
- Построить график эмпирической функции распределения;
- Рассчитать выборочные числовые характеристики: выборочное среднее и центральный выборочный момент;
- Рассчитать приближенные значения среднего квадратического отклонения, асимметрии и эксцесса (пользуясь пакетом анализа MS Excel). Сравнить приближенные расчетные значения с точными (рассчитанные по формулам MS Excel);
- Сравнить выборочные графические характеристики с соответствующими теоретическими.
Имеются следующие выборочные данные (выборка 10%-ная, механическая) о выпуске продукции и сумме прибыли, млн. руб. По исходным данным:
Задание 13.1.
13.1.1. Постройте статистический ряд распределения предприятий по сумме прибыли, образовав пять групп с равными интервалами. Постройте графики ряда распределения.
13.1.2. Рассчитайте числовые характеристики ряда распределения предприятий по сумме прибыли: среднюю арифметическую, среднее квадратическое отклонение, дисперсию, коэффициент вариации V. Сделайте выводы.
Задание 13.2.
13.2.1. Определите границы, в которых с вероятностью 0.997 заключена сумма прибыли одного предприятия в генеральной совокупности.
13.2.2. Используя x2-критерий Пирсона, при уровне значимости α проверить гипотезу о том, что случайная величина X – сумма прибыли – распределена по нормальному закону.
Задание 13.3.
13.3.1. Определите коэффициенты выборочного уравнения регрессии.
13.3.2. Установите наличие и характер корреляционной связи между стоимостью произведённой продукции (X) и суммой прибыли на одно предприятие (Y). Постройте диаграмму рассеяния и линию регрессии.
13.3.3. Рассчитайте линейный коэффициент корреляции. Используя t-критерий Стьюдента, проверьте значимость коэффициента корреляции. Сделайте вывод о тесноте связи между факторами X и Y, используя шкалу Чеддока.
Методические рекомендации. Задание 13.3 выполняется с помощью этого сервиса.
Скачать решение
Задача. Следующие данные представляют собой затраты времени клиентов на заключение договоров. Построить интервальный вариационный ряд представленных данных, гистограмму, найти несмещенную оценку математического ожидания, смещенную и несмещенную оценку дисперсии.
Пример. По данным таблицы 2:
1) Постройте ряды распределения по 40 коммерческим банкам РФ:
А) по величине прибыли;
Б) по величине кредитных вложений.
2) По полученным рядам распределения определите:
А) прибыль в среднем на один коммерческий банк;
Б) кредитные вложения в среднем на один коммерческий банк;
В) модальное и медианное значение прибыли; квартили, децили;
Г) модальное и медианное значение кредитных вложений.
3) По полученным в п. 1 рядам распределения рассчитайте:
а) размах вариации;
б) среднее линейное отклонение;
в) среднее квадратическое отклонение;
г) коэффициент вариации.
Необходимые расчеты оформите в табличной форме. Результаты проанализируйте. Сделайте выводы.
Постройте графики полученных рядов распределения. Графически определите моду и медиану.
Решение:
Для построения группировка с равными интервалами воспользуемся сервисом Группировка статистических данных.
Описание параметров
Количество строк: количество исходных данных. Если размерность ряда небольшая, укажите его количество. Если выборка достаточно объемная, то нажмите кнопку Вставить из Excel.
Количество групп: 0 – число групп будет определяться по формуле Стэрджесса.
Если задано конкретное число групп, укажите его (например, 5).
Вид ряда: Дискретный ряд.
Уровень значимости: например, 0.954. Этот параметр задается для определения доверительного интервала среднего значения.
Выборка: Например, проведена 10%-ная механическая выборка. Указываем число 10. Для наших данных указываем 100.
Скачать решение