UOH - Psychométrie et Statistique en L1 - 3. Indices de dispersion
header_UOH header_UOHPSY
Accueil arrow Comprendre arrow Statistique descriptive arrow 3. Indices de dispersion
3. Indices de dispersion Convertir en PDF Version imprimable Suggérer par mail
Appréciation des utilisateurs: / 7
FaibleMeilleur 
Écrit par Éric Raufaste   
Index de l'article
1. Dispersion des variables numériques
2. Dispersion des variables ordinales
3. Dispersion des variables nominales

 

Objectifs. L'objet de cet article est de fournir un ensemble d'indices calculables à partir d'un échantillon de données afin de traduire à quel point les données de cet échantillon sont dispersées ou au contraire à quel point elle se laissent bien résumer par une valeur centrale. 

Prérequis. Leçon sur les indices de tendance centrale.

Résumé. L'article présente l'écart-type et l'erreur-standard pour les variables numériques, l'écarts inter-quartiles pour les variables ordinales. Les avantages et inconvénients des différents indices de dispersion sont présentés.  



dispersion.pngComme les indices de tendance centrale, les indices de dispersion utilisables dépendent du type de variables concernées. Il y a toutefois plusieurs types d'indices de dispersion possible pour chaque type de variable. Selon le type de données à résumer (nominale, ordinale, numérique) on pourra utiliser des indices appropriés. En allant des données les plus complètes (numériques) aux plus frustes, on pourra utiliser les indices suivants :

 

  1. Indice numérique : la variance et l'écart-type
  2. Écarts-interquartiles
  3. Entropie

Nous adopterons ici le type de variable comme point d'entrée dans le plan. Comme pour l'article précédent, nous partirons des variables numériques, les plus familières, et nous descendrons progressivement dans les propriétés disponibles.

1. Dispersion des variables numériques 

1.1. Min, Max et Étendue

L'étendue, ou intervalle de variation, est la plus simple des mesures de dispersion que l'on peut obtenir avec des variables numériques. Il s'agit tout simplement de la différence entre la valeur la plus forte et la valeur la plus faible. Si l'on a une variable numérique X, et que l'on note Max(X) la valeur la plus forte et Min(X) la valeur la plus faible, on a donc :

Formula 

Pour information, le min et le max d'une série de données sont directement accessibles comme des fonctions de tableur, au même titre que la somme ou la moyenne (voir ici la démo pour l'utilisation des tableurs).

Dans le cas de variables numériques, l'interprétation naturelle de l'étendue est une distance : la distance maximale qui sépare deux données de l'échantillon.

Lorsque l'on travaille avec des données empiriques, éventuellement issues d'un recodage, il est important de regarder les valeurs Min et Max car c'est un moyen simple de détecter des erreurs de saisie. Si vous avez une échelle de mesure qui permet d'avoir des notes de 0 à 10 par exemple, et que le max dépasse 10, c'est nécessairement qu'une erreur de saisie a été commise. Ce type d'erreur est très fréquent, et presque inévitable lorsque les données sont nombreuses et que leur saisie n'est pas réalisée par l'intermédiaire d'un programme informatique capable de les détecter au moment même de la saisie. Or une seule erreur de ce type peut changer très sensiblement les calculs de moyenne ainsi que les calculs des variables de dispersion que nous allons voir maintenant.

Parfois certaines valeurs sont ainsi très différentes des autres, sans correspondre à des erreurs de saisie ou de logiciel. On parle de valeurs aberrantes (en anglais « outliers »). Par exemple on enregistre des temps de réponse sur une tâche à laquelle les sujets mettent en général 2 à 3 secondes à répondre. Et on observe que pour certaines observations, le temps dépasse une minute. Il est donc très probable que quelque chose d'anormal s'est passé au moment du recueil pour ces sujets.

 

 1.2. Variance et écart-type

Variance et écart-type d'une population

La variance représente une dispersion. L'idée de base est que la dispersion s'évalue à partir d'une valeur centrale : plus les observations sont loin de la valeur centrale et plus elles sont dispersées. Puisqu'on est dans un cas où la variable est numérique, la valeur centrale centrale que l'on pourra prendre sera naturellement la moyenne. Une valeur donnée sera donc d'autant plus dispersée qu'elle sera loin de la moyenne Formula.  En première approximation, il pourrait donc suffire de calculer la moyenne des écarts à la moyenne pour avoir une évaluation de la dispersion des données de l'échantillon. Pour une raison que nous détaillerons ensuite, on préfère cependant calculer la moyenne des carrés  des écarts à la moyenne.

Soit :

Formula

et l'écart-type de la population pourra alors aussi être calculé comme la racine carrée de la variance, soit

Formula 

Pourquoi prend-on la somme des carrés des écarts et pas les écarts eux-mêmes ? 

Pour répondre à cette question, imaginons que nous ayons deux mesures, une qui représente la moyenne +1 et l'autre qui représente la moyenne -1. Par exemple, sur la figure ci-dessous, la moyenne est m et la dispersion de ces deux mesures est représentée par l'accolade qui relie m-1 et m+1. 

Dispersion.jpg

Si je fais la somme des écarts de ces deux données à la moyenne, j'obtiendrai 1-1 = 0. Imaginons maintenant que nous ayons deux autres mesures, une qui représente la moyenne +4 et l'autre qui représente la moyenne -4. Si je fais la somme des écarts à la moyenne de ces deux nouvelles données, j'obtiendrai 4-4 = 0. L'indice obtenu en sommant les écarts à la moyenne n'est donc pas capable de reconnaître que le deuxième couple de données est plus dispersé autour de la moyenne que le premier, chose que l'intuition nous indique pourtant sans effort : il suffit de voir sur le schéma ci-dessus que les deux accolades n'ont pas la même largeur.

L'avantage de sommer les carrés des écarts plutôt que les écarts eux-mêmes tient à ce que les écarts positifs et négatifs ne s'annulent alors plus. ET de ce fait, le carré moyen des écarts du premier couple de données est de 1+1 = 2, divisé par 2, soit 1. Pour le second couple de données, le carré moyen des écarts est 16+16=32... Cette fois, on voit clairement que le second couple est plus dispersé autour de la moyenne que le premier. 

Variance d'un échantillon

Bien souvent, en recherche, on ne s'intéresse pas seulement à décrire les caractéristiques d'un échantillon mais on cherche à se faire une idée des caractéristiques de la population dont l'échantillon est issu. Si on a pris soin de choisir un échantillon bien représentatif de la population cible, celle au sujet de laquelle on veut apprendre quelque chose, alors la moyenne de l'échantillon nous renseigne sur la moyenne de la population, et l'estimation de la taille des écarts nous renseigne sur la dispersion des mesures qu'on aurait dans l'ensemble de la population. On peut montrer qu'une bonne estimation de la variance de la population est obtenue à partir de l'échantillon en divisant la somme des carrés des écarts à la moyenne par n-1 au lieu de n.  

Définition. Soit un échantillon de n données mesurées sur une variable X, où Xi représente la ième donnée de la variable X.  La variance de cet échantillon est donnée par :

Formula

Formula  dénote la valeur moyenne de X.

 

Écart-type d'un échantillon

En travaillant avec les carrés, nous avons évité  un problème. Toutefois le résultat obtenu n'est plus dans la même métrique que la valeur qu'on a cherché à mesurer. Par exemple si on a mesuré des longueurs, la variance traduit bien la dispersion des données de l'échantillon mesures mais puisqu'on a moyenné des mètres carrés et non des mètres, le résultat n'est pas directement interprétable en termes de la variable cible ! 

Pour avoir un indice de dispersion qui soit dans la même unité que la variable cible, on est donc conduits à utiliser la racine carrée de la variance et non la variance elle-même : c'est l'écart-type, noté directement s.

 

1.3. Variance d'erreur et erreur standard (aussi appelée erreur-type)

Lorsque l'on procède à une expérience, on travaille à partir d'un échantillon et non à partir de la population entière. Si l'on recommence l'expérience avec un autre échantillon, on aura un résultat légèrement différent. Le simple fait de travailler avec une échantillon aléatoire plutôt qu'avec l'ensemble de la population induit une erreur. Une partie de la dispersion totale des mesures est donc due à l'échantillonnage. Si l'on exprime la variabilité par la variance, on dira donc qu'une partie de la variance totale est de la « variance d'erreur ».

Logiquement, la part de cette variance d'erreur est d'autant plus faible que l'échantillon est grand. Cela a pour conséquence que si l'on veut comparer des dispersions provenant d'échantillons de tailles différentes, ces derniers présenteront  des niveaux de biais différents. Par exemple, supposons que l'on compare quatre groupes de sujets. Supposons encore que l'un des groupes soit sensiblement plus petit que les trois autres. En ce cas, la comparaison des dispersions dans ces différents groupes n'est pas possible, sauf à disposer d'une mesure de dispersion moins biaisée par la taille de l'échantillon. Cette mesure, c'est l'erreur standard que l'on obtient en divisant la variance par la racine carrée de l'effectif.

On pourra alors avoir deux cas selon que l'on considère la population ou l'échantillon.

Cas de la population : 

Formula

Cas de l'échantillon : 

Formula

 

1.4. Écart absolu moyen (aussi appelé déviation moyenne)

Si vous êtes plus tard amenés à lire certains articles de recherche, vous risquez de rencontrer un autre type de mesure de dispersion que l'on utilise parfois, à savoir la déviation moyenne. La logique est la même que celle de la variance sauf qu'au lieu d'élever les écarts à la moyenne au carré pour s'affranchir du problème des écarts négatifs qui s'annulent avec les écarts positifs, on ramène tous les écarts à des valeurs absolues avant de les moyenner. Ce qui donne la formule suivante :

Formula  

  



Dernière mise à jour : ( 10-01-2009 )
 
< Article précédent   Article suivant >

Citation

Dans la rubrique "Poésie de copies d'examen"

... le test mental ne doit pas être vu, perçu par le sujet comme une réponse en soi. Ce doit être un moyen de rebondir.

Une étudiante de L3 
 

Sondage

Pour étudier la statistique et la psychométrie en L1, ce site est...
 
© 2020 UOH - Psychométrie et Statistique en L1
Joomla! est un logiciel libre distribu sous licence GNU/GPL.