Построить график функции Точки разрыва функции Построение графика методом дифференциального исчисления Создание схемы логических элементов
Примеры решений Показатели вариации Доверительный интервал
Расчет моды и медианы Группировка данных Децили
Проверка гипотез по Пирсону Корреляционная таблица Квартили

Ряды распределения и группировки

Статистический ряд распределения – это упорядоченное распределение единиц совокупности на группы по определённому варьирующему признаку.
В зависимости от признака, положенного в основу образования ряда распределения, различают атрибутивные и вариационные ряды распределения.

Наличие общего признака является основой для образования статистической совокупности, которая представляет собой результаты описания или измерения общих признаков объектов исследования.

Предметом изучения в статистике являются изменяющиеся (варьирующие) признаки или статистические признаками.

Виды статистических признаков.

качественные признаки количественные признаки
признаки объекта. Они не поддаются непосредственному измерению (например, цвет одежды, национальность, образование и т.п.). результаты подсчета или измерения. В соответствии с этим они делятся на
дискретные непрерывные
могут принимать лишь отдельные значения из некоторого ряда чисел. Например, количество человек в семье, число повторений в опыте. могут принимать любые значения в определенном интервале. Например, температура, скорость движения и т. п.

Атрибутивными называют ряды распределения, построенные по качественным признакам. Атрибутивный – это признак, имеющий наименование, (например профессия: швея, учитель и т.д.).
Ряд распределения принято оформлять в виде таблиц. В табл. 2.8 приведён атрибутивный ряд распределения.
Таблица 2.8 - Распределение видов юридической помощи, оказанной адвокатами гражданам одного из регионов РФ.

N п/п Виды юридической помощи Число случаев юридической помощи
всего, тыс. в % к итогу
1 Устные советы 5109 69,43
2 Составление документов 991 13,47
3 Поручения по ведению уголовных дел 1021 13,87
4 Поручения по ведению Гражданских дел 238 3,23
ВСЕГО 7359 100,00
Вариационный ряд – это значения признака (или интервалы значений) и их частоты.
Вариационными рядами называют ряды распределения, построенные по количественному признаку. Любой вариационный ряд состоит из двух элементов: вариантов и частот.
Вариантами считаются отдельные значения признака, которые он принимает в вариационном ряду.
Частоты – это численности отдельных вариантов или каждой группы вариационного ряда, т.е. это числа, показывающие, как часто встречаются те или иные варианты в ряду распределения. Сумма всех частот определяет численность всей совокупности, её объём.
Частостями называются частоты, выраженные в долях единицы или в процентах к итогу. Соответственно сумма частостей равна 1 или 100 %. Вариационный ряд позволяет по фактическим данным оценить форму закона распределения.

В зависимости от характера вариации признака различают дискретные и интервальные вариационные ряды.
Пример дискретного вариационного ряда приведен в табл. 2.9.
Таблица 2.9 - Распределение семей по числу занимаемых комнат в отдельных квартирах в 1989 г. в РФ.

N П/п Группы семей, проживающих в квартирах с числом комнат Число семей
всего, тыс.ед. в % к итогу
1 1 4064 16,3
2 2 12399 49,7
3 3 7659 30,7
4 4 и более 832 3,3
ВСЕГО 24954 100,00
В первой колонке таблицы представлены варианты дискретного вариационного ряда, во второй – помещены частоты вариационного ряда, в третьей – показатели частости.

Вариационный ряд

В генеральной совокупности исследуется некоторый количественный признак. Из нее случайным образом извлекается выборка объема n, то есть число элементов выборки равно n. На первом этапе статистической обработки производят ранжирование выборки, т.е. упорядочивание чисел x1, x2, …, xn по возрастанию. Каждое наблюдаемое значение xiназывается вариантой. Частота mi – это число наблюдений значения xi в выборке. Относительная частота (частость) wi– это отношение частоты miк объему выборкиn: .
При изучении вариационного ряда также используют понятия накопленной частоты и накопленной частости. Пусть x некоторое число. Тогда количество вариантов, значения которых меньше x, называется накопленной частотой: для xi<x.Отношение накопленной частоты к общему числу наблюдений n называется накопленной частостью wimax.
Признак называется дискретно варьируемым, если его отдельные значения (варианты) отличаются друг от друга на некоторую конечную величину (обычно целое число). Вариационный ряд такого признака называется дискретным вариационным рядом.

Таблица 1. Общий вид дискретного вариационного ряда частот

Значения признака xi x1 x2 xn
Частоты mi m1 m2 mn

Признак называется непрерывно варьирующим, если его значения отличаются друг от друга на сколь угодно малую величину, т.е. признак может принимать любые значения в некотором интервале. Непрерывный вариационный ряд для такого признака называется интервальным.

Таблица 2. Общий вид интервального вариационного ряда частот

Интервалы ai – ai+1 a1 – a2 a2 – a3 ak – ak+1
Частоты mi m1 m2 mn

Таблица 3. Графические изображения вариационного ряда

Ряд Полигон или гистограмма Кумулята Эмпирическая функция распределения
Дискретный
Интервальный
Просматривая результаты проведенных наблюдений, определяют, сколько значений вариантов попало в каждый конкретный интервал. Предполагается, что каждому интервалу принадлежит один из его концов: либо во всех случаях левые (чаще), либо во всех случаях правые, а частоты или частости показывают число вариантов, заключенных в указанных границах. Разности ai – ai+1 называются частичными интервалами. Для упрощения последующих расчетов интервальный вариационный ряд можно заменить условно дискретным. В этом случае серединное значение i-го интервала принимают за вариант xi, а соответствующую интервальную частоту mi – за частоту этого интервала.
Для графического изображения вариационных рядов наиболее часто используются полигон, гистограмма, кумулятивная кривая и эмпирическая функция распределения.

В табл. 2.3 (Группировка населения России по размеру среднедушевого дохода в апреле 1994г.) представлен интервальный вариационный ряд.
Удобно ряды распределения анализировать при помощи графического изображения, позволяющего судить и о форме распределения. Наглядное представление о характере изменения частот вариационного ряда дают полигон и гистограмма.
Полигон используется при изображении дискретных вариационных рядов.
Изобразим, например графически распределение жилого фонда по типу квартир, (табл. 2.10).
Таблица 2.10 - Распределение жилого фонда городского района по типу квартир (цифры условные).

N п/п Группы квартир по числу комнат Число квартир, тыс.ед.
1 1 10
2 2 35
3 3 30
4 4 15
5 5 5
ВСЕГО 95
Полигон
Рис. Полигон распределения жилого фонда

На оси ординат могут наноситься не только значения частот, но и частостей вариационного ряда.
Гистограмма принимается для изображения интервального вариационного ряда. При построении гистограммы на оси абсцисс откладываются величины интервалов, а частоты изображаются прямоугольниками, построенными на соответствующих интервалах. Высота столбиков в случае равных интервалов должна быть пропорциональна частотам. Гистограмма – график, на котором ряд изображен в виде смежных друг с другом столбиков.
Изобразим графически интервальный ряд распределения, приведённый в табл. 2.11.
Таблица 2.11 - Распределение семей по размеру жилой площади, приходящейся на одного человека (цифры условные).
N п/п Группы семей по размеру жилой площади, приходящейся на одного человека Число семей с данным размером жилой площади Накопленное число семей
1 3 – 5 10 10
2 5 – 7 20 30
3 7 – 9 40 70
4 9 – 11 30 100
5 11 – 13 15 115
ВСЕГО 115 ----
Гистограмма
Рис. 2.2. Гистограмма распределения семей по размеру жилой площади, приходящейся на одного человека

Используя данные накопленного ряда (табл. 2.11), построим кумуляту распределения.
Кумулята
Рис. 2.3. Кумулята распределения семей по размеру жилой площади, приходящейся на одного человека

Изображение вариационного ряда в виде кумуляты особенно эффективно для вариационных рядов, частоты которых выражены в долях или процентах к сумме частот ряда.
Если при графическом изображении вариационного ряда в виде кумуляты оси поменять, то мы получим огиву. На рис. 2.4 приведена огива, построенная на основе данных табл. 2.11.
Гистограмма может быть преобразована в полигон распределения, если найти середины сторон прямоугольников и затем эти точки соединить прямыми линиями. Полученный полигон распределения изображён на рис. 2.2 пунктирной линией.
При построении гистограммы распределения вариационного ряда с неравными интервалами по оси ординат наносят не частоты, а плотность распределения признака в соответствующих интервалах.
Плотность распределения – это частота, рассчитанная на единицу ширины интервала, т.е. сколько единиц в каждой группе приходится на единицу величины интервала. Пример расчета плотности распределения представлен в табл. 2.12.
Таблица 2.12 - Распределение предприятий по числу занятых (цифры условные)
N п/п Группы предприятий по числу занятых, чел. Число предприятий Величина интервала, чел. Плотность распределения
А 1 2 3=1/2
1 До 20 15 20 0,75
2 20 – 80 27 60 0,25
3 80 – 150 35 70 0,5
4 150 – 300 60 150 0,4
5 300 – 500 10 200 0,05
ВСЕГО 147 ---- ----

Для графического изображения вариационных рядов может также использоваться кумулятивная кривая. При помощи кумуляты (кривой сумм) изображается ряд накопленных частот. Накопленные частоты определяются путём последовательно суммирования частот по группам и показывают, сколько единиц совокупности имеют значения признака не больше, чем рассматриваемое значение.

Огива
Рис. 2.4. Огива распределения семей по размеру жилой площади, приходящейся на одного человека

При построении кумуляты интервального вариационного ряда по оси абсцисс откладываются варианты ряда, а по оси ординат накопленные частоты.

Непрерывный вариационный ряд

Непрерывный вариационный ряд - ряд, построенный на основе количественного статистического признака. Пример. Средняя продолжительность заболеваний осужденных (дней на одного человека) в осенне-зимний период в текущем год составила:
7,0 6,0 5,9 9,4 6,5 7,3 7,6 9,3 5,8 7,2
7,1 8,3 7,5 6,8 7,1 9,2 6,1 8,5 7,4 7,8
10,2 9,4 8,8 8,3 7,9 9,2 8,9 9,0 8,7 8,5

Произведите группировку по средней заболеваемости, дней на 1-го человека. Составьте непрерывный вариационный ряд (закрытый и открытый). Укажите, какие из выделяемых групп являются наиболее типичными.
Решение будем проводить с помощью сервиса Группировка данных.
Число групп приближенно определяется по формуле Стэрджесса
n = 1 + 3,2log n
n = 1 + 3,2log(30) = 6
Ширина интервала составит:
h = (Xmax - Xmin)/n
Xmax - максимальное значение группировочного признака в совокупности.
Xmin - минимальное значение группировочного признака.
Определим границы группы.
Номер группы Нижняя граница Верхняя граница
1 5.8 6.53
2 6.53 7.26
3 7.26 7.99
4 7.99 8.72
5 8.72 9.45
6 9.45 10.2

Одно и тоже значение признака служит верхней и нижней границами двух смежных (предыдущей и последующей) групп.
Для каждого значения ряда подсчитаем, какое количество раз оно попадает в тот или иной интервал. Для этого сортируем ряд по возрастанию.
5.8 5.8 - 6.53 1
5.9 5.8 - 6.53 2
6 5.8 - 6.53 3
6.1 5.8 - 6.53 4
6.5 5.8 - 6.53 5
6.8 6.53 - 7.26 1
7 6.53 - 7.26 2
7.1 6.53 - 7.26 3
7.1 6.53 - 7.26 4
7.2 6.53 - 7.26 5
7.3 7.26 - 7.99 1
7.4 7.26 - 7.99 2
7.5 7.26 - 7.99 3
7.6 7.26 - 7.99 4
7.8 7.26 - 7.99 5
7.9 7.26 - 7.99 6
8.3 7.99 - 8.72 1
8.3 7.99 - 8.72 2
8.5 7.99 - 8.72 3
8.5 7.99 - 8.72 4
8.7 7.99 - 8.72 5
8.8 8.72 - 9.45 1
8.9 8.72 - 9.45 2
9 8.72 - 9.45 3
9.2 8.72 - 9.45 4
9.2 8.72 - 9.45 5
9.3 8.72 - 9.45 6
9.4 8.72 - 9.45 7
9.4 8.72 - 9.45 8
10.2 9.45 - 10.18 1


Результаты группировки оформим в виде таблицы:
Группы № совокупности Частота fi
5.8 - 6.53 1,2,3,4,5 5
6.53 - 7.26 6,7,8,9,10 5
7.26 - 7.99 11,12,13,14,15,16 6
7.99 - 8.72 17,18,19,20,21 5
8.72 - 9.45 22,23,24,25,26,27,28,29 8
9.45 - 10.18 30 1

Закрытый непрерывный вариационный ряд .
Группы Середина интервала, xi Кол-во, fi
5.8 - 6.53 6.17 5
6.53 - 7.26 6.9 5
7.26 - 7.99 7.63 6
7.99 - 8.72 8.36 5
8.72 - 9.45 9.09 8
9.45 - 10.18 9.82 1
30

Открытый непрерывный вариационный ряд
Группы Середина интервала, xi Кол-во, fi
до 6.53 6.17 5
6.53 - 7.26 6.9 5
7.26 - 7.99 7.63 6
7.99 - 8.72 8.36 5
8.72 - 9.45 9.09 8
более 9.45 9.82 1
30

Наиболее типичными из выделяемых групп являются группа [8.72 - 9.45]. Именно на нее приходится наибольшее количество (8). Таким образом, наиболее вероятным является средняя продолжительность заболеваний осужденных (дней на одного человека), которая будет лежать в интервале от 8.72 до 9.45.

При необходимости можно найти характеристики дискретного ряда (показатели распределения) или проверить ряд на вид распределения.

Виды статистических рядов распределения

Дискретный ряд

X
3,45
3,89
5
3
2,56
1,71
3,34
4,21

Типичное задание для данного вида ряда: сгруппировать ряд, построив равные интервалы. Для полученного ряда найти: среднюю арифметическую, моду, медиану, квартили, децили, дисперсию, среднеквадратическое отклонение, коэффициент вариации. Проверить гипотезу о нормальном распределении полученного ряда.

Интервальный ряд

группы число
до 20 5
20-25 10
25-30 40
30-35 70
35-40 90
40-45 30
45-50 15
свыше 50 10
Итого 270
Примечание:
преобразовываем к следующему виду:
группы число
15-20 5
20-25 10
25-30 40
30-35 70
35-40 90
40-45 30
45-50 15
50-55 10
Итого 270

Типичное задание для данного вида ряда: Для заданного ряда найти: среднюю арифметическую, моду, медиану, квартили, децили, дисперсию, среднеквадратическое отклонение, коэффициент вариации, размах вариации, коэффициент асимметрии, коэффициент осцилляции, линейное отклонение. Проверить гипотезу о нормальном распределении полученного ряда, использую критерий согласия Пирсона.

Вариационный ряд

Значение число
20 5
25 10
30 40
35 70
40 90
45 30
50 15
60 10
Итого 270

Виды статистических группировок

Статистические группировки делятся на типологические, структурные и аналитические.
Типологическая группировка – это разделение исследуемой качественно разнородной совокупности на классы, социально – экономические типы, однородные группы единиц.
Для построения типологической группировки используйте калькулятор (параметр Дискретный вариационный ряд). Примером типологической группировки является группировка промышленных предприятий по формам собственности (табл. 1).
Таблица 1 - Типологическая группировка промышленных предприятий одного из регионов России по формам собственности в 1994 г.
№ п/п Группы предприятий по формам собственности Число предприятий
всего единиц в % к итогу
1 Федеральная собственность 26326 93,6
2 Муниципальная собственность 89 0,3
3 Частная собственность 1366 4,9
4 Смешанная собственность 331 1,2
ВСЕГО 28112 100,0
Согласно данным таблицы подавляющее большинство предприятий находилось в федеральной собственности, менее 5 % составляли предприятия с частной формой собственности и только 1,5 % - с муниципальной и смешанной собственностью.
Типологические группировки позволяют проследить зарождение, развитие и отмирание различных типов явлений (табл. 2).
Таблица 2 - Группировка предприятий службы сервиса региона России по назначению (1994 г.)
№ п/п Группы предприятий по назначению Число приватизированных предприятий (единиц)
01.04.94г. 01.07.94г.
1 Розничная торговля (палатки, магазины и др.) 11194 6523
2 Общественное питание (столовые, рестораны и др.) 962 2100
3 Бытовое обслуживание населения (ателье, мастерские и др.) 662 3871
ВСЕГО 2818 12494

Исследуя табл. 2 отметим, что за 3 месяца число предприятий возросло в 4,4 раза, в том числе предприятий бытового обслуживания населения почти в 6 раз. Наибольшее их количество приходится на розничную торговлю. За исследуемый период численность их возросла на 52 % от общего числа предприятий.

Структурной называется группировка, в которой происходит разделение однородной совокупности на группы, характеризующие ее структуру по какому–либо варьирующему признаку. С помощью таких группировок может изучаться состав населения по полу, возрасту, месту проживания (структурная группировка представлена в табл. 3); состав предприятий по численности занятых, стоимости основных фондов; структура депозитов по сроку их привлечения и т.д.
Для построения структурной группировки используйте калькулятор (параметр Интервальный ряд).
Таблица 3 - Группировка населения России по размеру среднедушевого дохода в апреле 1994 г.

№ п/п Группы населения по размеру среднедушевого денежного дохода, тыс. руб. в месяц Численность населения
всего, млн. человек в % к итогу
1 До 40 2,4 1,6
2 40-80 23,4 15,8
3 80-120 34,8 23,5
4 120-160 29,4 19,8
5 160-200 20,7 13,9
6 200-240 13,5 9,1
7 240-280 8,7 5,9
8 280 и более 15,5 10,4
ВСЕГО 148,4 100,0
Данные группировки показывают, что более 43 % населения имело среднедушевой денежный доход от 80 до 160 тыс. руб. в месяц, доход до 40 тыс. руб. получала 1,6 % населения.

Группировка, выявляющая взаимосвязи между изучаемыми явлениями и их признаками, называется аналитической группировкой. Всю совокупность признаков можно разделить на две группы: факторные и результативные. Факторными называются признаки, под воздействием которых меняются, другие результативные, признаки. Взаимосвязь проявляется в том, что с возрастанием значения факторного признака возрастает или убывает среднее значение результативного.
Особенности аналитической группировки следующие:

  1. в основу группировки кладется факторный признак;
  2. каждая выделенная группа характеризуется средними значениями результативного признака.

Аналитическая группировка приведена в табл. 4.
Таблица 4 - Группировка коммерческих банков России по сумме активов баланса (данные условные)
№ п/п Группы банков по сумме активов баланса, млн. руб. Количество банков, единиц В среднем на один банк
численность занятых, человек балансовая прибыль, млрд. руб.
1 До 20000 19 184 22,5
2 20000-30000 8 313 31,6
3 30000-40000 7 374 36,0
4 40000-50000 9 468 69,2
5 50000 и более 7 516 205,6
ВСЕГО 50 329 60,0
Данные таблицы характеризуют зависимость между суммой активов банка и численностью занятых, а также суммой балансовой прибыли. Чем больше сумма активов, тем больше прибыль банка и численность его сотрудников.