UOH - Psychométrie et Statistique en L1 - 4. Représentations graphique des distributions
header_UOH header_UOHPSY
Accueil arrow Comprendre arrow Statistique descriptive arrow 4. Représentations graphique des distributions
4. Représentations graphique des distributions Convertir en PDF Version imprimable Suggérer par mail
Appréciation des utilisateurs: / 4
FaibleMeilleur 
Écrit par Éric Raufaste   
Index de l'article
1. Distribution théoriques
2. Distributions observées, cas discret
3. Distributions observées, cas continu
 

 

Sur la courbe de la page précédente, on voit aisément qu'il s'agit là d'une représentation graphique théorique. Par exemple les valeurs sur les axes sont continues. Mathématiquement cela veut dire qu'entre deux nombres, aussi rapprochés soient-ils, on peut toujours en insérer une infinité d'autres. Or dans un échantillon réel, avec des données observées donc, on ne dispose pas d'une infinité d'observations mais toujours d'un nombre (très) limité. On ne sait donc généralement rien de la proportion d'observations qui tombent en un point donné. Il existe une infinité de points pour lesquels on ne dispose d'aucune observation, et un tout petit nombre de points pour lesquels on a, le plus souvent une seule. Si l'on traçait un tel graphique on aurait quelque chose d'illisible. Dans ces conditions, comment faire ?

Il faut distinguer deux cas, selon que la variable que l'on étudie possède des valeurs discrètes ou continues. Commençons par le cas discret. 

2. Distributions observées, cas discret

2.1. Histogrammes 

Si les valeurs sont discrètes, la solution est immédiate : il suffit de tracer un histogramme en prenant les modalités de la variable pour l'axe des X, et l'effectif dans chaque modalité sur l'axe des Y, et le tour est joué. Rappelons qu'un histogramme est un mode de représentation graphique qui met en relation une (ou plusieurs) variables discrètes (par exemple des catégories, des classes ordinales, ou des intervalles numériques disjoints) et une variable numérique.  En voici un exemple :

ExempleDistributionDiscrete.jpg
Bien que claire, la représentation précédente présente une particularité, qui pourra s'avérer importante selon l'usage qui est visé pour la représentation de la distribution. S'il s'agit de comparer deux distributions ayant le même effectif et le même nombre de modalités, et si l'on a pris soin de garder la même échelle pour l'axe des Y, alors pas de problèmes, les deux graphiques seront directement comparables. Mais si les deux distributions à comparer ont des effectifs très différents (par exemple on veut comparer la distribution obtenue sur l'ensemble de la population française avec ce qui a été obtenu sur un échantillon donné représentant, disons, 60000 fois moins d'observations), la comparaison directe ne sera plus possible. Il sera alors plus avantageux de remplacer les effectifs bruts dans chaque modalité par le pourcentage d'observations qui tombent dans chaque modalité. Ainsi les deux histogrammes deviennent comparables. Par exemple :

ExempleDistributionDiscrete2.jpg
 

Sur cet exemple, on voit bien que la forme n'a pas changé mais l'axe des Y est maintenant exprimé avec des pourcentages et deux distributions d'effectifs bruts très différents deviendraient comparables.

 

  2.2. Les boîtes à moustaches (ou « Boxplots »  

Les boîtes à moustaches sont une représentation de la distribution d'une variable qui repose sur 5 valeurs. Le rectangle central représente le gros de la distribution, avec la valeur centrale, généralement la médiane, marquée ici par une ligne. Les petits traits placés aux extrêmités indiquent les bornes extérieures de la distribution. Toutefois, selon le paramétrage du logiciel, ces valeurs peuvent correspondrent à des fonctions différentes. 

Dans ce premier exemple, où est représentée une distribution des trois notes sur 20 obtenues par 500 étudiants à un concours écrit d'entrée dans une grande école, avec une épreuve de maths, une épreuve de physique et une épreuve d'anglais, on a une boîte à moustache par note. Les cinq valeurs considérées sont le Min et le Max pour les extrêmités, et les trois quartiles pour le rectangle central. Les quartiles Q1 et Q3 délimitent le rectangle central qui, de ce fait, représente directement l'écart interquartile. La médiane (= quartile Q2) est la ligne interne au rectangle. Les points vers les extrêmités représentent des valeurs extrêmes, c'est-à-dire des notes qui se démarquent sensiblement des notes obtenues par le reste des candidats. 

MoustachesEtendue.jpg

 

Dans ce second exemple, les trois mêmes distributions sont représentées par des boîtes à moustaches mais les valeurs extrêmes sont maintenant les valeurs considérées comme correspondant à l'étendue des valeurs non-atypiques. Du coup les valeurs extrêmes marquées par les petits cercles se retrouvent en dehors de cette étendue.

MoustachesEtendue1-99.jpg

Nous terminerons par un troisième exemple dans lequel les valeurs marquant les extrêmités des moustaches sont définies par le premier et le 99ème percentile. Autrement dit, les notes telles que 1% des notes sont plus petites que la moustache basse, et 1% des notes sont plus hautes que la moustache haute. 

MoustachesEtendueNonAtypique.jpg

 

2.3. Camemberts 

Lorsqu'il s'agit de représenter les effectifs par modalités d'une variable discrète, une représentation très commune est le « camembert », par analogie évidente avec la forme usuelle de la boîte du fromage éponyme.

Voici un exemple : 

 

Camembert.jpg
 

 

  


Dernière mise à jour : ( 10-01-2009 )
 
< Article précédent   Article suivant >

Citation

Dans la rubrique "Poésie de copies d'examen"

Le psychologue est le seul à posséder les clés de l'interprétation des tests menteaux.

Une étudiante de L3 
 

Sondage

Pour étudier la statistique et la psychométrie en L1, ce site est...
 
© 2020 UOH - Psychométrie et Statistique en L1
Joomla! est un logiciel libre distribu sous licence GNU/GPL.