Page 1 sur 2
Objectifs. Étendre le concept de liaison entre variables, de corrélation, aux cas où les variables considérées ne sont pas toutes numériques.
Prérequis.
- Les deux articles Dépendances entre variables et Liaisons entre variables : la corrélation linéaire sont essentiels pour comprendre cette leçon.
-
Au plan de la technique mathématique, il est aussi nécessaire d'avoir vu l'article sur la somme algébrique.
Résumé. Le principe général de corrélation ayant été vu dans le cas numérique, le présent article présente des extensions à un petit nombre de cas particuliers importants : 2 variables ordinales (rho de Spearman et Tau de Kendall); 2 variables nominales...
1. Liaison entre deux variables ordinales
Rappelons que les variables ordinales sont des variables telles que leurs valeurs respectent une relation d'ordre (on peut les ordonner de la plus petite à la plus grande ou réciproquement) mais sans que la propriété d'égalité des intervalles n'ait de sens. Par exemple, le 1 est mieux classé que le deuxième de la classe qui lui même est mieux classé que le troisième. Mais rien ne permet de garantir que l'écart de performance entre le premier et le deuxième soit équivalent à l'écart de performance qui existe entre le deuxième et le troisième.
Il existe principalement deux extensions de la corrélation linéaire aux cas des variables ordinales. Ce sont le rho de Spearman et le Tau de Kendall.
2.1. Le coefficient de corrélation des rangs de Spearman
Le coefficient de Spearman se calcule exactement comme la coefficient de corrélation linéaire à un point près : on commence par recoder les deux variables en termes de rangs avant de faire le calcul de la corrélation. Pour illustrer cela, imaginons les données suivantes, pour lesquels nous voulons calculer une corrélation de rangs entre les variables V1 et V2 :
Sujet V1 V2
1 1,1 3,4
2 5 6,5
3 2,4 2,8
4 3 1
5 3 2
6 2 1
Ce recodage en termes de rangs se fait selon la logique suivante : les observations sont ordonnées de la plus petites à la plus grande (ou l'inverse). La plus forte prend le rang 1, la deuxième le rang 2, etc... Pour ce qui concerne les ex-aequo, on remplace simplement leur valeur par la moyenne des rangs obtenus par cette valeur. Dans l'exemple précédent, la variable V1 donne le reclassement suivant (du plus grand au plus petit) :
Sujet V1 rang
1 1,1 6
2 5 1
3 2,4 4
4 3 2
5 3 3
6 2 5
La valeur 3 prend les rang 2 et 3, ce qui fait un rang moyen de 2,5 pour chacune de ces deux valeurs et finalement nous avons le recodage suivant :
Sujet V1 V1R
1 1,1 6
2 5 1
3 2,4 4
4 3 2,5
5 3 2,5
6 2 5
On applique la même logique sur la variable V2 et on obtient une variable recodée V2R:
Sujet V2 V2R
1 3,4 2
2 6,5 1
3 2,8 3
4 1 5,5
5 2 4
6 1 5,5
Si nous calculons alors la corrélation linéaire classique entre les variables V1R et V2R, nous trouvons la valeur 0,161 qui est le rho de Spearman.
Le rho de spearman s'interprète exactement comme une corrélation classique, qui varie entre -1 et +1, avec 0 signifiant l'absence de corrélation.
2.2. Le τ (Tau) de Kendall
Pour calculer le Tau de Kendall, il faut commencer par trier les observations par ordre croissant (ou décroissant de l'une des deux variables). Cela nous donne donc un ordre parfait (aux ex-aequo près) sur la première variable mais pas sur la deuxième variable. On va alors comparer toutes les paires possibles de valeurs à l'intérieur de la seconde variable. On appelera paire concordante une paire qui ira dans le même sens que la variable n°1 et paire discordante toute paire qui ne va pas dans le même sens que la variable n°1. Le tau de Kendall s'obtient alors par la formule suivante :
où nc est le nombre de paires concordantes et nd le nombre de paires discordantes.
Voyons cela sur un exemple. Nous partons des données suivantes :
Sujet V1 V2
1 1,1 3,4
2 5 6,5
3 2,4 2,8
4 3 1
5 3.2 2
6 2 1,1
En retriant ces données selon la variable V1, nous obtenons :
Sujet V1 V2
1 1,1 3,4
6 2 1,1
3 2,4 2,8
4 3 1
5 3.2 2
2 5 6,5
Nous nous intéressons maintenant aux paires de données de la variable V2. Nous allons compter comme discordantes toutes les paires d'observations où la seconde valeur sera plus petite que la première (elles vont dans le sens inverse de l'ordre défini pour la variable V1) et concordantes les paires telles que la deuxième valeur est plus grande que la première. Ainsi, si nous comparons les sujets 1 et 6, nous voyons que la première valeur (3,4) est plus grande que la seconde (1,1) et donc la paire est discordante puisqu'elle ne va pas dans le même sens que l'ordre de la variable V1 (du plus petit au plus grand). Nous comptons encore 1 discordance pour la comparaison des sujets 1 et 3, etc... la paire sujet 1 - sujet 2 par contre est concordante (puisque 3,4 est plus petit que 6,5). Nous continuons avec la paire sujet 6 - sujet 3 qui est concordante). Nous examinons ainsi toutes les paires possibles, ce qui nous donc nc= 8; nd = 7.
Si nous appliquons la formule plus haut, nous trouvons donc
soit 0,067.
Notons que le dénominateur de la formule
représente le nombre total de paires possibles. Il y a en effet
combinaisons de deux éléments pami n. Après simplification, cela fait,
On voit donc que le coefficient de corrélation de Kendall représente en fait le degré auquel les deux variables sont rangées dans le même ordre. Il faut cependant noter que les ex-aequo ne sont ni des paires concordantes, ni des paires discordantes et qu'il faut donc introduire un facteur de correction en cas d'ex-aequo.
|