UOH - Psychométrie et Statistique en L1 - 8. Liaison entre deux variables
header_UOH header_UOHPSY
Accueil arrow Comprendre arrow Statistique descriptive arrow 8. Liaison entre deux variables
8. Liaison entre deux variables Convertir en PDF Version imprimable Suggérer par mail
Appréciation des utilisateurs: / 9
FaibleMeilleur 
Écrit par Éric Raufaste   
Index de l'article
1. Covariation et covariance
2. Limites de la covariance
3. La corrélation linéaire (définition et propriétés)
4. La corrélation linéaire (simulation informatique)
5. Conclusion

 

Objectif. Illustrer une méthode d'évaluation de la liaison de deux variables au moyen de la corrélation linéaire entre deux variables numériques. Les autres cas de liaison, c'est-à-dire lorsqu'au moins une des deux variables n'est pas numérique, seront abordés en détail sous forme d'une rubrique sur les liaisons entre variables non numériques de la section "Zoom sur...".

Prérequis. Les différents articles de la grande leçon Psychologie, statistique et psychométrie ainsi que ceux de la grande leçon Statistique descriptive.

Résumé. Cet article introduit une méthode classique d'évaluation de la force de liaison : la corrélation linéaire. L'article commence par introduire la notion de co-variation ainsi qu'une mesure numérique de cette covariation, la covariance. Ensuite le coefficient de corrélation de Pearson est introduit et ses principales propriétés sont énoncées, en expliquant leur signification du point de vue de la force de liaison.



1. Covariation et covariance

1.1. Notion de co-variation

Imaginons deux variables extrêmement et positivement liées,  par exemple le salaire et le pouvoir d'achat. On observe que dès que l'une monte, l'autre monte aussi. Réciproquement, dès que la première descend, la seconde descend aussi. Bien entendu, comme nous l'avons vu dans la leçon précédente, le lien peut être très fort mais négatif (dès qu'une variable monte l'autre descend).

Ainsi, si nous considérons deux variables en vue d'évaluer leur degré de liaison, on peut s'intéresser à la façon dont elles co-évoluent ou non, on dira à la façon dont elles « covarient ». 

La covariation est le fait que les évolutions de chacune des deux variables présentent une certaine régularité. On l'aura compris, la covariation est un indicateur de liaison : plus la covariation est forte et régulière et plus on peut penser que les deux variables sont liées.

Une fois admis ce principe, la question qui se pose est de trouver un indicateur quantitatif de la covariation. Comment pouvons-nous faire pour mesurer la quantité de covariation qui relie deux variables ? Un premier élément de réponse nous est fourni par la notion de covariance.

 

1.2. Notion de covariance

Pour obtenir notre indice de covariation, il va falloir pour chaque individu statistique mesurer les variations sur une première variable X, les variations sur l'autre variable,  Y, puis les combiner pour obtenir un indice agrégé. Enfin, il nous faudra agréger les mesures de covariation issues de chaque individu statistique pour obtenir une mesure globale de covariation.

1.2.1. Quantifier les variations sur chaque variable.

Imaginons que la variable ne varie pas. Tous les individus statistiques auraient donc la même valeur sur cette variable, valeur qui se trouverait aussi être la moyenne. Imaginons que cette variable commence à varier un petit peu. On trouvera donc certaines valeurs un peu éloignées de la moyenne par excès, d'autres un peu éloignées de la moyenne par défaut. Si la variable varie beaucoup, on trouvera de plus en plus d'individus ayant produit une valeur très éloignée de la moyenne. Sur cette base, il paraît donc assez naturel d'utiliser l'écart à la moyenne pour quantifier le degré de variation manifesté par un individu donné. 

Soient

Formula

respectivement la valeur moyenne constatée sur la variable X, la valeur moyenne constatée sur la variable Y, la mesure de la variable X obtenue sur le ième individu, et enfin la mesure de la variable Y obtenue sur le ième individu.

La mesure de variation sur la variable X pour l'individu i peut donc être donnée directement par la valeur

Formula

De même, la mesure de variation sur la variable Y pour l'individu i peut être donnée par la valeur

Formula  
Notons que ces deux valeurs sont signées, au sens où un écart dans le sens où la valeur est plus grande que la moyenne aura un signe positif tandis qu'une variation telle que la mesure est plus petite que la moyenne donnera un écart négatif. 

1.2.1. Combiner les variations sur chaque variable.

 Nous nous intéressons ici à obtenir une mesure de la liaison, donc à mettre en relation les variations sur une variable avec les variations sur l'autre variable, ce qui suppose de combiner les deux mesures précédentes. Par ailleurs, nous avons vu dans la leçon précédente qu'une liaison entre variable possédait une certaine force et une certaine direction. Il serait donc avantageux que l'indice que nous sommes en train de construire capture cette direction. Autrement dit, il ne devrait pas donner le même résultat lorsque les variations sur X et Y vont dans le même sens (par exemple lorsque les deux variables augmentent) et lorsqu'elles vont en sens contraire (par exemple l'une monte et l'autre descend).

Une solution de combinaison très simple qui respecte ces propriétés est la multiplication :

Formula

En effet, si l'on multiplie deux nombres de même signe le produit sera positif tandis que si l'on multiplie deux nombres de signes opposés le produit sera négatif. Ainsi, le signe du produit des écarts à la moyenne sera positif si les deux mesures sur X et sur Y sont du même côté de leur moyenne, et de signe négatif si l'une est plus grande que sa moyenne tandis que l'autre est plus petite que sa moyenne.

1.2.1. Combiner les variations sur l'ensemble des sujets

Jusqu'ici, nous avons obtenu un indice qui caractérise la covariation au niveau de chaque individu. Finalement, pour avoir une vue d'ensemble de la covariation des deux variables, il nous reste donc à agréger les indices individuels en un indice global. Pour se faire, une solution naturelle est d'utiliser la moyenne, donc de calculer la somme de chaque indice individuel puis de diviser par le nombre d'individus de la population. Cela nous donne un indice qui est la covariance des deux variables dans la population considérée :

Formula
 

Comme vous pouvez le noter sur la formule ci-dessus, la lettre qui est utilisée pour caractériser la covariance est la lettre grecque sigma, dont nous avions vu qu'elle était utilisée pour dénoter l'écart-type d'une variable. Nlous allons voir maintenant que cela n'est pas un hasard.

1.3. Relation entre covariance et variance

Que se passe-t-il si j'essaie d'estimer la covariance d'une variance avec elle-même ? Évidemment, je m'attends à trouver une liaison parfaite. Donc d'une certaine façon, la covariance d'une variable avec elle-même devrait me donner une idée de la plus parfaite liaison qu'il est possible d'avoir avec une variable. Appliquons donc notre formule de covariance à une variable A dont on va mesurer la covariance avec elle-même. Nous aurons alors 

Formula

Il est clair que le terme

Formula

peut se réécrire 

Formula

et donc que 

Formula

Au cours de la présente grande leçon, nous nous sommes déjà posé la question de la quantification  des variations. C'était lorsqu'il s'agissait de mesurer la dispersion d'une variable, dans l'article sur les indices de dispersion. Il est en effet assez intuitif que variation et dispersion recouvrent des concepts très similaires : plus il y a de variations, plus il y a de dispersion et réciproquement. De ce fait, si je dispose d'une indice de mesure de la dispersion, je dispose par là-même d'un indice de quantification des variations. Dans le cas d'une variable numérique, nous avons vu que l'indice pertinent était la variance dont la formule était la suivante :

Formula

Si vous comparez les deux formules, celle de la variance et celle de la covariance d'une variable avec elle-même, vous voyez qu'elles sont rigoureusement identiques. 

 



Dernière mise à jour : ( 10-01-2009 )
 
< Article précédent   Article suivant >

Citation

... la psychométrie ne se confond pas plus avec l'étude des tests qu'avec l'analyse des données.
Paul Dickes, Jocelyne Tournois, André Flieller et Jean-Luc Kop 
 

Sondage

Pour étudier la statistique et la psychométrie en L1, ce site est...
 
© 2020 UOH - Psychométrie et Statistique en L1
Joomla! est un logiciel libre distribu sous licence GNU/GPL.