UOH - Psychométrie et Statistique en L1 - 4. Représentations graphique des distributions
4. Représentations graphique des distributions
Écrit par Éric Raufaste   

Objectifs. Introduire la notion de représentation graphique d'une distribution et la distinction entre représentation théorique et représentation à partir d'échantillons.

Prérequis. Les différents articles de la grande leçon Psychologie, statistique et psychométrie, et en particulier l'article de généralités sur les distributions statistiques. Essentiel sur les histogrammes.

Résumé. Cet article se propose de développer la notion générale de distribution, sans entrer dans les paramètres mathématiques permettant de caractériser les distributions, mais plutôt en montrant d'abord la construction graphique de ces distributions, puis en présentant différents types de distributions et les éléments qui les engendrent.



1. La construction graphique des distributions théoriques

Attention : Pour bien comprendre cette section, il peut être utile de rappeler ce qu'est un histogramme et savoir comment il est possible d'en construire. Rappelons qu'un histogramme est un mode de représentation graphique qui met en relation une (ou plusieurs) variables discrètes (par exemple des catégories, des classes ordinales, ou des intervalles numériques disjoints) et une variable numérique.

Une distribution est fondamentalement une représentation de la façon dont les observations (théoriques ou empiriques) se distribuent, se répartissent, sur les différentes valeurs d'une variable. Par exemple, imaginons un sociologue qui voudrait examiner les salaires des femmes en France, pour les mettre en relation, par exemple, avec le niveau d'étude. Ne pouvant accéder à l'ensemble des salaires de toutes les femmes travaillant en france, il va se rabattre, comme dans la grande majorité des recherches scientifiques, sur les salaires d'un petit échantillon de femmes. Il va s'arranger pour que cet échantillon ne soit quand même pas trop petit, et surtout qu'il soit représentatif de la population cible, à savoir la population française. Admettons donc qu'il ait bien sélectionné son échantillon, et qu'il se trouve à la tête d'un ensemble de, disons, 1000 salaires de femmes. Admettons aussi qu'il a vérifié que ses données ne contiennent pas déjà d'erreur de recueil ou de saisie. Que faire ensuite ? 

La première chose à faire, c'est précisément de regarder la forme de la distribution des salaires dans son échantillon. Mais pour étudier cela, il nous faut faire un détour par un rappel un peu conceptuel de ce qu'est une distribution.

Dans le cas général, une distribution statistique théorique décrit la probabilité de trouver une valeur dans un échantillon : la surface sous la courbe représente une proportion d'observations. Par exemple la courbe suivante décrit une distribution « normale». On remarque que la probabilité (techniquement on parle plutôt de « densité de probabilité ») d'avoir une observation autour de zéro est la plus forte et qu'elle décroît d'autant plus qu'on s'éloigne du zéro. Elle devient quasiment nulle très rapidement.

DistributionNormale2s.jpg

   

 

 

Sur la courbe de la page précédente, on voit aisément qu'il s'agit là d'une représentation graphique théorique. Par exemple les valeurs sur les axes sont continues. Mathématiquement cela veut dire qu'entre deux nombres, aussi rapprochés soient-ils, on peut toujours en insérer une infinité d'autres. Or dans un échantillon réel, avec des données observées donc, on ne dispose pas d'une infinité d'observations mais toujours d'un nombre (très) limité. On ne sait donc généralement rien de la proportion d'observations qui tombent en un point donné. Il existe une infinité de points pour lesquels on ne dispose d'aucune observation, et un tout petit nombre de points pour lesquels on a, le plus souvent une seule. Si l'on traçait un tel graphique on aurait quelque chose d'illisible. Dans ces conditions, comment faire ?

Il faut distinguer deux cas, selon que la variable que l'on étudie possède des valeurs discrètes ou continues. Commençons par le cas discret. 

2. Distributions observées, cas discret

2.1. Histogrammes 

Si les valeurs sont discrètes, la solution est immédiate : il suffit de tracer un histogramme en prenant les modalités de la variable pour l'axe des X, et l'effectif dans chaque modalité sur l'axe des Y, et le tour est joué. Rappelons qu'un histogramme est un mode de représentation graphique qui met en relation une (ou plusieurs) variables discrètes (par exemple des catégories, des classes ordinales, ou des intervalles numériques disjoints) et une variable numérique.  En voici un exemple :

ExempleDistributionDiscrete.jpg
Bien que claire, la représentation précédente présente une particularité, qui pourra s'avérer importante selon l'usage qui est visé pour la représentation de la distribution. S'il s'agit de comparer deux distributions ayant le même effectif et le même nombre de modalités, et si l'on a pris soin de garder la même échelle pour l'axe des Y, alors pas de problèmes, les deux graphiques seront directement comparables. Mais si les deux distributions à comparer ont des effectifs très différents (par exemple on veut comparer la distribution obtenue sur l'ensemble de la population française avec ce qui a été obtenu sur un échantillon donné représentant, disons, 60000 fois moins d'observations), la comparaison directe ne sera plus possible. Il sera alors plus avantageux de remplacer les effectifs bruts dans chaque modalité par le pourcentage d'observations qui tombent dans chaque modalité. Ainsi les deux histogrammes deviennent comparables. Par exemple :

ExempleDistributionDiscrete2.jpg
 

Sur cet exemple, on voit bien que la forme n'a pas changé mais l'axe des Y est maintenant exprimé avec des pourcentages et deux distributions d'effectifs bruts très différents deviendraient comparables.

 

  2.2. Les boîtes à moustaches (ou « Boxplots »  

Les boîtes à moustaches sont une représentation de la distribution d'une variable qui repose sur 5 valeurs. Le rectangle central représente le gros de la distribution, avec la valeur centrale, généralement la médiane, marquée ici par une ligne. Les petits traits placés aux extrêmités indiquent les bornes extérieures de la distribution. Toutefois, selon le paramétrage du logiciel, ces valeurs peuvent correspondrent à des fonctions différentes. 

Dans ce premier exemple, où est représentée une distribution des trois notes sur 20 obtenues par 500 étudiants à un concours écrit d'entrée dans une grande école, avec une épreuve de maths, une épreuve de physique et une épreuve d'anglais, on a une boîte à moustache par note. Les cinq valeurs considérées sont le Min et le Max pour les extrêmités, et les trois quartiles pour le rectangle central. Les quartiles Q1 et Q3 délimitent le rectangle central qui, de ce fait, représente directement l'écart interquartile. La médiane (= quartile Q2) est la ligne interne au rectangle. Les points vers les extrêmités représentent des valeurs extrêmes, c'est-à-dire des notes qui se démarquent sensiblement des notes obtenues par le reste des candidats. 

MoustachesEtendue.jpg

 

Dans ce second exemple, les trois mêmes distributions sont représentées par des boîtes à moustaches mais les valeurs extrêmes sont maintenant les valeurs considérées comme correspondant à l'étendue des valeurs non-atypiques. Du coup les valeurs extrêmes marquées par les petits cercles se retrouvent en dehors de cette étendue.

MoustachesEtendue1-99.jpg

Nous terminerons par un troisième exemple dans lequel les valeurs marquant les extrêmités des moustaches sont définies par le premier et le 99ème percentile. Autrement dit, les notes telles que 1% des notes sont plus petites que la moustache basse, et 1% des notes sont plus hautes que la moustache haute. 

MoustachesEtendueNonAtypique.jpg

 

2.3. Camemberts 

Lorsqu'il s'agit de représenter les effectifs par modalités d'une variable discrète, une représentation très commune est le « camembert », par analogie évidente avec la forme usuelle de la boîte du fromage éponyme.

Voici un exemple : 

 

Camembert.jpg
 

 

     

   

 

3. Distributions observées, cas continu

Tout d'abord commençons par remarquer que parler de valeurs continues pour des données d'observations est en réalité un abus de langage. En effet, mathématiquement une variable est continue si quelles que soient deux valeurs de cette variable, on peut toujours avoir une troisième valeur qui vient s'intercaler entre elles. Par exemple, entre 2,3 et 2,4 on peut placer 2,35. Entre 0,000000001 et 0,000000002, on peut placer 0,0000000015. Et ainsi de suite à l'infini. Parler de valeurs continues pour une variable observée signifie donc que l'on serait capable de discriminer entre deux valeurs infiniment proches. Mais absolument aucun instrument de mesure ne dispose d'une précision infinie. Donc quand on parle de valeurs observées sur une dimension continue, en réalité on dit simplement que notre dispositif de mesure permet suffisamment de finesse pour nous donner l'impression de continuité.  Un peu de la même façon que les pixels sur un écran d'ordinateur sont suffisamment proches les uns des autres pour nous donner l'illusion de continuité de l'image alors qu'en réalité les pixels sont bien séparés les uns des autres. Ou encore comme lorsqu'au cinéma nous avons l'impression d'un mouvement fluide et continû alors qu'il ne s'agit que d'une série rapidement diffusée d'images nettement séparées. Toutes les données d'observation ne sont en réalité que fictivement continues, même en supposant que la variable théorique qu'elles sont censées mesurer soit, elle, continue. 

Une fois admis ce principe, on est fondé à utiliser la technique de l'histogramme pour représenter n'importe quelle distribution, que la variable observée soit discrète ou pseudo-continue.

La solution technique pour construire l'histogramme consiste à découper l'axe des X en intervalles, et à regrouper pour les compter ensemble toutes les observations qui tombent dans cet intervalle. On va ainsi obtenir un tableau avec, pour chaque valeur, le nombre d'observations associées. À partir de là, il ne restera plus qu'à tracer l'histogramme correspondant. Cet histogramme sera alors la représentation graphique de l'échantillon. Et dans la mesure où l'échantillon est la meilleure estimation de la population cible, il constitue par là même une représentation de la distribution de la population cible. Ce n'est évidemment pas la seule possible. Il suffit d'avoir un autre échantillon, plus large et/ou plus représentatif de la population cible pour pouvoir en extraire une meilleure représentation de la distribution cible. 

Dans l'exemple de la figure qui suit, les valeurs portées sur l'axe des axes sont liées à une variable calculée, et le mode de calcul fait que cette variable était donné avec 7 décimales après la virgule. Nous avons donc là une précision des données exagérées (ne correspondant pas à la vérité de ce que nous étions capables de mesurer effectivement), et en tout cas suffisamment élevée pour que cela représente un nombre de modalités considérable, largement supérieur au nombre d'observations disponibles. Nous sommes donc dans un cas où il faut construire des intervalles permettant d'agréger les observations. Ici, il a été demandé au logiciel de construire 13 intervalles. Le logiciel de statistiques a donc découpé l'étendue des observations (i.e., la différence entre la plus grande et la plus petite valeur) entre 13 intervalles de taille égale, et a compté combien d'observations tombaient dans chacun des 13 intervalles. La courbe en rouge a été ajoutée par le logiciel pour indiquer ce que serait la distribution théorique si ces données correspondaient à une distribution normale. On peut donc avoir une impression visuelle de la normalité (ou non) des données issues de l'échantillon. 

HistogrammesurvaleursContinues.jpg
  

Remarquons que la taille des intervalles peut varier, puisqu'elle dépend du nombre d'intervalles qu'on choisit de prendre. C'est un choix de la part de la personne qui construit la représentation. On remarquera alors que selon le choix  de la taille des intervalles la distribution peut parfois changer de forme. Au minimum, on prendra des intervalles correspondant à la précision de notre dispositif de mesure puisque de toute façon, des intervalles plus fins n'auraient aucun sens. En revanche on peut être amenés à faire des regroupements plus larges. En effet, toutes choses égales par ailleurs, plus l'on prend des intervalles fins et plus le nombre d'observations dans chaque intervalle sera petit. À la limite, on risque de retomber sur le problème qu'on aurait avec de vraies variables continues, à savoir une seule observation dans quelques intervalles et aucune observation dans la plupart des intervalles. Un histogramme quasiment plat en quelque sorte, donc très peu informatif. Une solution naturelle consiste alors à choisir des intervalles plus larges, donc moins nombreux mais contenant plus d'observations. Il n'y a pas de règle de choix stricte. Le choix de la bonne taille d'intervalles est affaire d'intuition du chercheur, en fonction de ce qu'il veut montrer et en fonction des propriétés des données dont il dispose.

 

Dernière mise à jour : ( 10-01-2009 )