Коэффициент ранговой корреляции Кендалла
Назначение сервиса. С помощью данного онлайн-калькулятора производится расчет коэффициента ранговой корреляции Кендэла по всем основным формулам, а также оценка его значимости.
Ранговый коэффициент корреляции характеризует общий характер нелинейной зависимости: возрастание или убывание результативного признака при возрастании факторного. Это показатель тесноты монотонной нелинейной связи.
Предложенный Кендэлом коэффициент строится на основе отношений типа «больше –меньше», справедливость которых установлена при построении шкал.
Выделим пару объектов и сравним их ранги по одному признаку и по другому. Если по данному признаку ранги образуют прямой порядок (т.е. порядок натурального ряда), то паре приписывается +1, если обратный, то –1. Для выделенной пары соответствующие плюс – минус единицы (по признаку X и по признаку Y) перемножаются. Результат, очевидно, равен +1; если ранги пары обоих признаков расположены в одинаковой последовательности, и –1, если в обратной.
Если порядки рангов по обоим признакам у всех пар одинаковы, то сумма единиц, приписанных всем парам объектов, максимальна и равна числу пар. Если порядки рангов всех пар обратны, то –C2N. В общем случае C2N = P + Q, где P – число положительных (конкордантность или согласованность), а Q – отрицательных единиц (дискоркондантность или несогласованность), приписанных парам при сопоставлении их рангов по обоим признакам. Для их расчета используют следующие соотношения (j>i):
- (xj−xi)(yj−yi)>0
- (xj−xi)(yj−yi)<0
Величина
называется коэффициентом Кендалла.
Из формулы видно, что коэффициент τ представляет собой разность доли пар объектов, у которых совпадает порядок по обоим признакам (по отношению к числу всех пар)
и доли пар объектов, у которых порядок не совпадает
.
Например, значение коэффициента 0,60 означает, что у 80% пар порядок объектов совпадает, а у 20% не совпадает (80% + 20% = 100%; 0,80 – 0,20 = 0,60). Т.е. τ можно трактовать как разность вероятностей совпадения и не совпадения порядков по обоим признакам для наугад выбранной пары объектов.
В общем случае расчет τ (точнее Р или Q) даже для N порядка 10 оказывается громоздким.
Покажем, как упростить вычисления.
Для связанных рангов используют коэффициент τb. Связанными называются ранги, полученные путем усреднения одинаковых рангов. Количество наблюдений, по которому производится усреднение связанного ранга, называется длиной связи.
τb=
где
n0=
tix - длина связи для i-й группы X;tjy - длина связи для j-й группы Y.
см. пример №4.
Пример №1. Зависимость между объемом промышленной продукции и инвестициями в основной капитал по 10 областям одного из федеральных округов РФ в 2003 году характеризуется следующими данными:
| Область | Объем промышленной продукции, млрд руб. | Инвестиции в основной капитал, млрд руб. |
| Белгородская | 64,6 | 10,22 |
| Брянская | 21,5 | 4,12 |
| Владимирская | 51,1 | 8,58 |
| Воронежская | 54,4 | 14,79 |
| Ивановская | 20,6 | 2,88 |
| Калужская | 35,7 | 7,24 |
| Костромская | 18,4 | 5,57 |
| Курская | 37,1 | 9,67 |
| Липецкая | 90,6 | 10,45 |
| Смоленская | 39,8 | 10,48 |
Вычислите ранговые коэффициенты корреляции Спирмена и Кендэла. Проверить их значимость при α=0,05. Сформулируйте вывод о зависимости между объемом промышленной продукции и инвестициями в основной капитал по рассматриваемым областям РФ.
Решение. Присвоим ранги признаку Y и фактору X.
Расположим объекты так, чтобы их ранги по X представили натуральный ряд. Так как оценки, приписываемые каждой паре этого ряда, положительные, значения «+1», входящие в Р, будут порождаться только теми парами, ранги которых по Y образуют прямой порядок.
Их легко подсчитать, сопоставляя последовательно ранги каждого объекта в ряду Y с стальными.
Упорядочим данные по X.
В столбце dy для ранга 3 имеются 7 рангов, превосходящих 3, следовательно, 3 породит в Р слагаемое 7. Для ранга 1 таких элементов 8 (это 2, 4, 6, 9, 5, 10, 7, 8), т.е. в Р войдет 8 и т.д. В итоге Р = 37 и с использованием формул имеем:
| X | Y | ранг X, dx | ранг Y, dy | P | Q |
| 18.4 | 5.57 | 1 | 3 | 7 | 2 |
| 20.6 | 2.88 | 2 | 1 | 8 | 0 |
| 21.5 | 4.12 | 3 | 2 | 7 | 0 |
| 35.7 | 7.24 | 4 | 4 | 6 | 0 |
| 37.1 | 9.67 | 5 | 6 | 4 | 1 |
| 39.8 | 10.48 | 6 | 9 | 1 | 3 |
| 51.1 | 8.58 | 7 | 5 | 3 | 0 |
| 54.4 | 14.79 | 8 | 10 | 0 | 2 |
| 64.6 | 10.22 | 9 | 7 | 1 | 0 |
| 90.6 | 10.45 | 10 | 8 | 0 | 0 |
| 37 | 8 |

По упрощенным формулам:


Для того чтобы при уровне значимости α проверить нулевую гипотезу о равенстве нулю генерального коэффициента ранговой корреляции Кендалла при конкурирующей гипотезе Н1: τ ≠ 0,надо вычислить критическую точку:

где n - объем выборки; zkp - критическая точка двусторонней критической области, которую находят по таблице функции Лапласа по равенству Ф(zkp)=(1—α)/2.
Если |τ| < Tkp — нет оснований отвергнуть нулевую гипотезу. Ранговая корреляционная связь между качественными признаками незначима. Если |τ| > Tkp — нулевую гипотезу отвергают. Между качественными признаками существует значимая ранговая корреляционная связь.
Найдем критическую точку zkp
Ф(zkp) = (1-α)/2 = (1 - 0.05)/2 = 0.475
По таблице Лапласа находим zkp = 1.96
Найдем критическую точку:

Так как τ > Tkp — отвергаем нулевую гипотезу; ранговая корреляционная связь между оценками по двум тестам значимая.
Пример №2. По данным об объеме строительно-монтажных работ, выполненных собственными силами, и численности работающих в 10 строительных компаниях одного из городов РФ, определить зависимость между этими признаками с помощью коэффициента Кендела.
Решение находим с помощью калькулятора. Проранжируем данные.
В ряду Y для ранга 2 найдется 8 рангов, превосходящих 2. Для следующего ранга 4 таких элементов 6 (это 7, 5, 6, 8, 9, 10), т.е. в Р войдет 6 и т.д.
| X | Y | ранг X, dx | ранг Y, dy | P | Q |
| 38 | 292 | 1 | 2 | 8 | 1 |
| 50 | 302 | 2 | 4 | 6 | 2 |
| 52 | 366 | 3 | 7 | 3 | 4 |
| 54 | 312 | 4 | 5 | 4 | 2 |
| 59 | 359 | 5 | 6 | 3 | 2 |
| 61 | 398 | 6 | 8 | 2 | 2 |
| 66 | 401 | 7 | 9 | 1 | 2 |
| 70 | 298 | 8 | 3 | 1 | 1 |
| 71 | 283 | 9 | 1 | 1 | 0 |
| 73 | 413 | 10 | 10 | 0 | 0 |
| 29 | 16 |

По упрощенным формулам:


Для того чтобы при уровне значимости α проверить нулевую гипотезу о равенстве нулю генерального коэффициента ранговой корреляции Кендалла при конкурирующей гипотезе Н1: τ ≠ 0,надо вычислить критическую точку:

где n - объем выборки; zkp - критическая точка двусторонней критической области, которую находят по таблице функции Лапласа по равенству Ф(zkp)=(1 — α)/2.
Если |τ| < Tkp — нет оснований отвергнуть нулевую гипотезу. Ранговая корреляционная связь между качественными признаками незначима. Если |τ| > Tkp — нулевую гипотезу отвергают. Между качественными признаками существует значимая ранговая корреляционная связь.
Найдем критическую точку zkp
Ф(zkp) = (1 - α)/2 = (1 - 0.05)/2 = 0.475
По таблице Лапласа находим zkp = 1.96
Найдем критическую точку:

Так как τ < Tkp — принимаем нулевую гипотезу; ранговая корреляционная связь между оценками по двум тестам незначимая.
Пример №3. Два контролера (или эксперта) оценили качество 10 образцов продукции (сортов). Результаты проверки представлены в виде баллов. Необходимо с помощью коэффициента ранговой корреляции Кендалла определить, согласуются ли оценки контролеров.
| Образец | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
| Контролер I (X) | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
| Контролер II (Y) | 1 | 2 | 3 | 5 | 4 | 7 | 6 | 8 | 10 | 9 |
Пример №4. При дегустации 10 сортов продукции двумя специалистами были получены следующие оценки:
| Сорт | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
| Специалист I | 3 | 5 | 10 | 5 | 4 | 2 | 3 | 2 | 1 | 7 |
| Специалист II | 5 | 1 | 9 | 4 | 3 | 1 | 2 | 7 | 8 | 5 |
Решение. Присвоим ранги значениям баллов специалиста I и специалиста II. Так как в матрице имеются связанные ранги (одинаковый ранговый номер) 1-го ряда, произведем их переформирование. Переформирование рангов производиться без изменения важности ранга, то есть между ранговыми номерами должны сохраниться соответствующие соотношения (больше, меньше или равно). Также не рекомендуется ставить ранг выше 1 и ниже значения равного количеству параметров (в данном случае n = 10). Переформирование рангов производится в табл.
| Номера мест в упорядоченном ряду | Расположение факторов по оценке эксперта | Новые ранги |
| 1 | 1 | 1 |
| 2 | 2 | 2.5 |
| 3 | 2 | 2.5 |
| 4 | 3 | 4.5 |
| 5 | 3 | 4.5 |
| 6 | 4 | 6 |
| 7 | 5 | 7.5 |
| 8 | 5 | 7.5 |
| 9 | 7 | 9 |
| 10 | 10 | 10 |
Так как в матрице имеются связанные ранги 2-го ряда, произведем их переформирование. Переформирование рангов производится в табл.
| Номера мест в упорядоченном ряду | Расположение факторов по оценке эксперта | Новые ранги |
| 1 | 1 | 1.5 |
| 2 | 1 | 1.5 |
| 3 | 2 | 3 |
| 4 | 3 | 4 |
| 5 | 4 | 5 |
| 6 | 5 | 6.5 |
| 7 | 5 | 6.5 |
| 8 | 7 | 8 |
| 9 | 8 | 9 |
| 10 | 9 | 10 |
Количество конкордантных пар расчитывается по формуле:
P=(Dxi-Dxj)*(Dyi-Dyj)>0
Количество дискордантных пар расчитывается по формуле:
Q=(Dxi-Dxj)*(Dyi-Dyj)<0
| X | Y | ранг X, dx | ранг Y, dy | P | Q |
| 1 | 8 | 1 | 9 | 1 | 8 |
| 2 | 1 | 2.5 | 1.5 | 6 | 0 |
| 2 | 7 | 2.5 | 8 | 1 | 6 |
| 3 | 5 | 4.5 | 6.5 | 1 | 3 |
| 3 | 2 | 4.5 | 3 | 4 | 1 |
| 4 | 3 | 6 | 4 | 3 | 1 |
| 5 | 1 | 7.5 | 1.5 | 2 | 0 |
| 5 | 4 | 7.5 | 5 | 2 | 0 |
| 7 | 5 | 9 | 6.5 | 1 | 0 |
| 10 | 9 | 10 | 10 | 0 | 0 |
| 21 | 19 |
Для ранга 1.5 превышающих значений будет 6 (это 8, 6.5, 3, 4, 5, 6.5, 10), т.е. в Р войдет 6 и т.д. В итоге Р = 21. Аналогично производится подсчет для Q, только ищем количество рангов меньше текущего.
Поскольку имеются связанные ранги, то для анализа используют коэффициент τb.
| X | Y | ранг X, dx | ранг Y, dy | P | Q |
| 1 | 8 | 1 | 9 | 1 | 8 |
| 2 | 1 | 2.5 | 1.5 | 6 | 0 |
| 2 | 7 | 2.5 | 8 | 1 | 6 |
| 3 | 5 | 4.5 | 6.5 | 1 | 3 |
| 3 | 2 | 4.5 | 3 | 4 | 1 |
| 4 | 3 | 6 | 4 | 3 | 1 |
| 5 | 1 | 7.5 | 1.5 | 2 | 0 |
| 5 | 4 | 7.5 | 5 | 2 | 0 |
| 7 | 5 | 9 | 6.5 | 1 | 0 |
| 10 | 9 | 10 | 10 | 0 | 0 |
| 21 | 19 |
Для n=10 наблюдей может быть построено
n0=
Расчитаем поправки.
nx=
ny=
τb=
Найдем критическую точку zkp
Ф(zkp) = (1 - α)/2 = (1 - 0.05)/2 = 0.475
По таблице Лапласа находим zkp = 1.96
Так как τ < Tkp — между экспертами отсутствует согласованность.
Пример №4. Для класса из 14 учащихся известны результаты уровня интеллекта (IQ) и время решения серии логических заданий (X):
| № | IQ | Время (сек) | № | IQ | Время (сек) |
| 1 | 100 | 154 | 8 | 132 | 100 |
| 2 | 118 | 123 | 9 | 122 | 114 |
| 3 | 112 | 120 | 10 | 121 | 115 |
| 4 | 97 | 213 | 11 | 115 | 107 |
| 5 | 99 | 200 | 12 | 117 | 176 |
| 6 | 103 | 187 | 13 | 109 | 143 |
| 7 | 102 | 155 | 14 | 111 | 111 |
Пример №5. При приеме на работу семи кандидатам было предложено два теста:
| Кандидат | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| Тест 1 | 31 | 82 | 25 | 26 | 53 | 30 | 29 |
| Тест 2 | 21 | 55 | 8 | 27 | 32 | 42 | 26 |
Пример №6. Имеются данные об изменении спроса на отдельные виды продукции издательства:
| Стратегическая единица | 2014 г. (тыс. экз.) | 2016 г. (тыс. экз.) |
| Классика | 35 | 45 |
| Детская литература | 90 | 100 |
| Зарубежный детектив | 70 | 65 |
| Российский детектив | 80 | 120 |
| Женский роман | 100 | 90 |
| Фантастика | 55 | 30 |
| Приключения | 40 | 30 |
| Специальная литература | 70 | 110 |
| Рекламная продукция | 40 | 60 |
| Прочая литература | 50 | 80 |
Пример №7. Имеются данные о продолжительности жизни и расходах на здравоохранение в некоторых странах:
| Страна | Продолжительность жизни (годы) | Расходы на здравоохранение (% от ВВП) |
| Испания | 83,8 | 9 |
| Южная Корея | 82,2 | 7,4 |
| Япония | 83,6 | 10,2 |
| США | 78,9 | 17,1 |
| Бразилия | 74,4 | 8,3 |
| Россия | 70,4 | 7,1 |
| Азербайджан | 70,8 | 6 |