UOH - Psychométrie et Statistique en L1 - Histogrammes
header_UOH header_UOHPSY
Accueil arrow Zoom sur... arrow Histogrammes
Histogrammes Convertir en PDF Version imprimable Suggérer par mail
Appréciation des utilisateurs: / 7
FaibleMeilleur 
Écrit par Éric Raufaste   

L'histogramme est une façon de représenter les données statistiques qui permet d'associer visuellement des nombres à des catégories discrètes (mutuellement exclusives), à l'issue d'un tri à plat. Le lecteur trouvera en outre des méthodes pour produire les données requises pour construire un histogramme sous Excel (avec vidéo), et sous SPSS, ainsi qu'une démonstration de la construction  de tels histogrammes avec Histogrammes avec OpenOffice (avec vidéo).

Prenons tout de suite une exemple, le salaire moyen pour les hommes en les femmes, par catégorie socio-professionnelle, en France, en 2005 (source INSEE, http://www.insee.fr/fr/themes/tableau.asp?reg_id=0&id=38). On trouve sur le site de l'INSEE le tableau suivant : 

INSEESalaires2005.jpg

 

Les nombres sont précis mais ils ne parlent malheureusement pas à l'intuition : il est difficile de véritablement sentir ce qu'ils représentent simplement sur la base de leurs seules valeurs numériques. Par contre, il est possible d'en donner une traduction visuelle, à laquelle il sera beaucoup plus facile de donner une signification. Il suffit de tracer pour chaque CSP (cadres, professions intermédiaires, etc.), une barre qui sera d'autant plus haute que le nombre associé à cette catégorie sera élevée. Ainsi nous pouvons construire, en nous restreignant aux données des femmes, l'histogramme suivant : 

INSEESalaires2005HistFemmes.jpg 

Immédiatement, les différences entre les catégories socio-professionnelles prennent un sens. D'un seul regard, on sait qui gagne le plus, qui gagne, le moins, et on a même une perception intuitive des écarts entre les salaires, faibles si on compare les ouvrières et les employées, forte si on compare les cadres aux autres groupes.

Si l'on revient maintenant au tableau de départ, on voit qu'il y a aussi une colonne pour les hommes. Il y a donc la volonté pour le concepteur du tableau d'apporter une information différente pour les deux sexes, et donc de permettre une comparaison. une première idée pourrait consister à créer le graphique des hommes sur le même modèle que celui des femmes : 

INSEESalaires2005HistHommes.jpg 

Ce qui frappe les yeux c'est alors la similitude avec le graphique précédent. Il faut vraiment regarder de près pour voir qu'il existe des différences. L'intuition véhiculée par cette nouvelle représentation graphique est donc que la structure des salaires n'est pas fondamentalement différente selon les sexes. Pourtant, si l'on y regarde de plus près on s'aperçoit que l'axe des Y monte jusqu'à 60000€ sur le graphique des hommes alors qu'il s'arrête à 40000€ sur celui des femmes ! Autrement, cette impression de similitude est une illusion ! C'est là un point très important : si l'on veut comparer des graphiques, il faut absolument qu'ils aient la même échelle sous peine d'induire des illusions.

On peut aussi renforcer la facilité de comparaison en rapprochant directement les deux séries de données au sein d'un même histogramme. Par ailleurs les règles de bonne composition des figures scientifiques veulent que chaque axe ait un titre et que la figure elle-même ait un titre.

Nous obtenons alors la figure suivante : 

INSEESalaires2005HistAll.jpg

On remarque alors que l'histoire racontée par cet histogramme est maintenant totalement différente de l'impression induite par les deux graphiques précédents : cette fois on voit que quelle que soit la CSP, les hommes gagnent plus que les femmes. On remarque même quelque chose qui serait passé totalement inaperçu sans une comparaison directe avec une échelle unique pour l'axe des Y : la différence existe dans toutes les catégories mais elle est surtout marquée chez les cadres. Autrement dit, non seulement les hommes gagnent plus mais cette différence s'accentue avec la montée dans l'échelle sociale.

Clairement l'intuition véhiculée par la mise en forme graphique des nombres est très facile à modifier. C'est d'ailleurs à la fois la force et la faiblesse des représentations graphiques. C'est une force car le pouvoir expressif de l'image est considérablement plus puissant que celui des nombres bruts. C'est une faiblesse car une impression fausse peut facilement être créée, volontairement par les personnes dont c'est le métier de manipuler les opinions publiques, ou involontairement par le chercheur de bonne foi qui connaît trop le sens des données et oublie que celui-ci reste à découvrir par la personne qui verra le graphique.

Ensuite, il existe diverses options permettant d'enjoliver les graphiques, et en particulier l'ajout d'une troisième dimension : 

INSEESalaires2005HistAll3Da.jpg 

C'est peut-être un peu plus attractif à l'oeil mais est-ce que le message véhiculé passe mieux ? Rien n'est moins sûr car la 3D n'apporte en réalité ici aucune information pertinente. Elle ne fait que distraire l'oeil. On pourrait néanmoins remarquer que la mise en perspective fait qu'une partie du bleu est cachée, ce qui renforce l'impression d'une dominance du rouge sur le bleu.

Une variante est peut-être plus pertinente, qui consiste à mieux séparer les deux séries de données : 

INSEESalaires2005HistAll3Db.jpg 

Sur cette autre version des mêmes données on voit que la comparaison des CSP, à l'intérieur du groupe des femmes d'une part, et à l'intérieur du groupe des hommes d'autre part, est facilitée par rapport à la version précédente.

Conclusion : quand on choisit une représentation graphique des données, il faut avant tout être vigilant à ce que les propriétés intuitives de l'image résultante soient en accord avec le message à faire passer. 

 

Dernière mise à jour : ( 24-01-2009 )
 
< Article précédent   Article suivant >

Citation

... il est incorrect de parler de la validité d'un test en général.
Dany Laveault et Jacques Grégoire

 

 

Sondage

© 2020 UOH - Psychométrie et Statistique en L1
Joomla! est un logiciel libre distribu sous licence GNU/GPL.