UOH - Psychométrie et Statistique en L1 - 6. Variabilité et distributions
6. Variabilité et distributions
Écrit par Éric Raufaste   

Objectif. Poursuivre l'introduction du vocabulaire technique de base, en précisant bien les statuts des différents concepts servant à décrire les distributions.

Prérequis. Leçon : quantification de la variabilité.

Résumé. On étudie généralement une population au travers d'un échantillon représentatif. En compilant les observations réalisées sur l'échantillon, on obtient une estimation servant à approcher la valeur d'un paramètre, c'est-à-dire la valeur idéale qu'on pourrait obtenir si l'on faisait des mesures parfaites sur absolument tous les individus de la population cible.


1. Notion de distribution

Pourquoi caractériser une population ? Un exemple concret.  cintres.jpg

Imaginons que des fabricants de vêtements souhaitent mesurer la taille moyenne des français, afin de savoir de quelles tailles ils doivent fabriquer leur vêtements. Une procédure évidente, à condition de disposer de moyens quasi-illimités, consisterait à mesurer chacun des individus qui composent la population française, soit plus de soixante millions de mesures. Admettons pour l'instant que le coût de ces mesures ne soit pas un problème et tournons nous plutôt vers l'utilisation que les industriels pourraient faire de l'information recueillie.

La première remarque c'est qu'au sein d'une population d'apparence homogène peuvent se cacher des populations différentes. Ainsi, du point de vue de la taille, la population française n'est pas homogène. Il suffit de considérer la question du sexe pour qu'il soit évident que les proportions des hommes et des femmes adultes ne sont pas identiques. Ainsi, du point de vue de la taille, la population française est composée du regroupement de deux populations différentes : les hommes et les femmes. En fait, on sait aussi que, toujours du point de vue de la taille, les proportions des enfants (la taille de la tête par rapport au reste du corps, par exemple) ne sont pas les mêmes que les proportions des adultes. Pour la simplicité de l'exposé, imaginons que nos industriels ne souhaitent habiller que la population des hommes adultes.

S'ils veulent rentabiliser leurs usines, ces industriels devraient pouvoir fabriquer une quantité de vêtements de grandes tailles proportionelle à la part de grandes personnes en France. Même chose pour les petites tailles et les moyennes tailles. On voit bien qu'il ne servirait pas à grand-chose de seulement produire des vêtements d'une taille adaptée au français moyen !

La question qui se pose ensuite à nos fabricants est de déterminer combien de sortes de tailles de vêtements différents il va falloir fabriquer. Si un vêtement est taillé pour des individus petits (Taille S), tous les individus entrant dans cette classe doivent pouvoir porter le vêtement. Mais il est clair qu'un individu de grande taille (taille XXL) ne pourrait pas porter ce même vêtement car il ne pourrait pas rentrer dedans sans le craquer, ou bien il serait mal dedans et aurait l'air ridicule. Par ailleurs les procédés industriels sont tels qu'on peut réduire les coûts si on fabrique un nombre petit de modèles différents. On ne peut donc pas non plus fabriquer des vêtements pour chaque taille exacte. Les fabricants vont donc définir le plus petit nombre possible de classes d'équivalence pour décrire la population. Par classes d'équivalence, il faut entendre ici des intervalles de tailles de sujets tels que tous les individus mesurant entre la limite basse et la limite haute pourront physiquement porter les mêmes vêtements.

Une fois ces classes définies, nos fabricants doivent répondre à deux nouvelles questions :

  1. Combien de vêtements de chaque classe peuvent-ils vendre ? Et donc combien il y a d'individus dans chaque classe ?
  2. Quelle taille devront avoir les vêtements de chaque classe ?

La première question est celle de l'effectif. Autrement dit, combien d'individus tombent dans cette classe. Connaître l'effectif de l'échantillon est aisé : il suffit de compter. Dans certains cas, on préférera utiliser la notion de fréquence, sur laquelle nous reviendrons.

La deuxième question est plus délicate car même en connaissant exactement la taille de chaque individu de la population, il existe plusieurs réponses. On peut par exemple choisir la taille la plus grande dans cet intervalle, en se disant que comme cela on est sûr que tout le monde rentrera dedans... On peut aussi choisir la taille moyenne des individus de cette classe, l'idée étant de minimiser l'écart de taille qu'aura à subir chaque consommateur (entre sa taille réelle et la taille du vêtement), et donc augmenter les chances que des acheteurs potentiels trouvent que le vêtement leur va.

Définition de distribution

GroupeAdultes.jpgToutes les questions précédentes ont un point commun : y répondre suppose d'avoir une idée de la répartition des individus de la population sur la caractéristique considérée. C'est précisément la notion de distribution.

Définition : Nous appelerons distribution d'une population sur une caractérisque la répartition des individus de la population sur les différentes modalités ou valeurs de la caractéristique. 

Nous pouvons d'ores et déjà noter que les distributions ont été étudiées sous l'angle des fonctions mathématiques qui permettent d'en donner un modèle.  L'exemple le plus connu est la fameuse courbe en cloche, qui traduit la répartition que prennent les mesures autour d'une valeur moyenne lorsque seul le hasard (l'imprécision de la mesure) explique la dispersion des notes autour de la moyenne. Cette courbe a différentes propriétés mathématiques sur lesquelles nous reviendrons. Par exemple elle est symétrique autour de la moyenne, on rencontre le plus d'observations près de la moyenne et plus on s'éloigne de la moyenne moins on trouve d'observations, etc. Le belge Adolphe Quetelet en particulier s'est illustré pour avoir mis en évidence cette distribution sur des données humaines.

Ainsi, on a d'un côté les distributions empiriques observées (la répartition des tailles chez les individus d'un échantillon représentatif) ou non (la répartition des tailles dans l'ensemble de tous les français) et les distributions mathématique (par exemple la distribution induite par l'imprécision de la mesure).

 

2. Paramètres et statistiques 

Bien entendu il est peu probable qu'on se lance jamais dans l'enquête prise précédemment en exemple car celle-ci aurait un coût exhorbitant. Ce coût serait d'autant plus difficile à justifier que, même en admettant qu'on ait besoin de connaître les tailles des français avec précision, on peut imaginer que si on prend un échantillon bien choisi de français,c'est-à-dire un échantillon choisi pour être représentatif de l'ensemble de la population française, alors la moyenne observée sur l'échantillon serait très proche de la moyenne réelle. De sorte que le gain de précision qu'on pourrait espérer en mesurant vraiment toute la population cible ne pourrait jamais compenser le coût exhorbitant d'une telle étude. C'est effectivement la stratégie que chercheurs comme industriels utilisent dans la quasi-totalité des cas : recueillir des données sur un échantillon bien choisi d'individus et en inférer les propriétés de la population cible. C'est précisément l'objet de la statistique que de fournir des informations sur les populations à partir des données d'échantillons extraits de ces populations.

Définitions  

Considérons maintenant la définition suivante, discutable à plusieurs égards, mais qui va nous servir de point de départ :

« Une mesure, comme le score moyen d’autosatisfaction, qui se réfère à l’ensemble d’une population est appelée paramètre. Cette même mesure est appelée statistique lorsqu’elle est calculée à partir d’un échantillon de données que nous avons rassemblées. Les paramètres sont des entités réelles d’intérêt tandis que les statistiques correspondantes sont en fait des suppositions »

                                                    David Howell (2008, p. 5).

 
Karl_Pearson.jpgLaissons pour le moment de côté la question de savoir si un score d'auto-satisfaction est vraiment une mesure pour nous concentrer sur la distinction entre les concepts de paramètre et de statistique, extrêmement importante à comprendre. En effet, à première vue, on pourrait croire que les seules informations « réelles » sont celles recueillies sur l'échantillon, tandis que celles portant sur la population ne sont qu'inférées à partir des données de l'échantillon. Nous pourrions donc être tentés de considérer les statistiques comme réelles et le paramètre comme hypothétique. Pour lever cette difficulté, il faut adopter un point de vue différent, développé au début du XXème siècle par Karl Pearson (image ci-contre). Pour Pearson, le paramètre, terme dont l'étymologie renvoie au grec pour « à côté de la mesure », est réel et digne d'intérêt parce que, du point de vue de la recherche, c'est sur lui qu'on veut apprendre quelque chose. Du point de vue scientifique, il n'est a priori intéressant d'apprendre des choses sur un échantillon particulier que dans la mesure où ces choses nous renseignent sur l'ensemble de la population qu'on veut étudier. Il ne serait pas intéressant de savoir que telle expérience a donné tel résultat si en même temps elle ne nous apprenait pas quelque connaissance générale sur le monde. C'est donc bel et bien le paramètre, qui n'est pas la mesure mais qui est estimé grâce à elle, qui est « d'intérêt », pour reprendre l'expression de Howell.

Ce qui paraît curieux dans la définition vue plus haut, c'est l'affirmation que la statistique est une supposition. En effet, on pourrait penser que c'est finalement la seule donnée un peu solide dont nous disposons. Au moins elle renseigne sur quelque chose qui a été effectivement observé. En fait, Pearson a proposé de renverser ce point de vue et de considérer que ce qui est réel ce sont les fonctions mathématiques qui servent à décrire comment se répartissent les observations. Si vous vous rappelez le schéma vu dans l'article d'introduction, vous n'aurez aucun mal à voir qu'il s'agit là d'une position qui distingue des croyances que l'on pourrait qualifier de « vraies » et des croyances plus ou moins trompeuses. Dans cette optique, les observations réalisées ne sont que des expériences fortement dépendantes de petits événements aléatoires et ne sont donc pas réelles mais seulement des valeurs plus ou moins trompeuses. Soit. Mais...

Le paramètre est-il réel ?

C'est généralement ce que l'on suppose. Ainsi on peut s'interroger sur la taille moyenne de la population française. Cette taille moyenne est un paramètre et elle existe indubitablement dans l'univers mathématique. La question devient alors celle de la réalité de l'univers mathématique. Il s'agit là d'une position philosophique discutable et discutée, même chez les mathématiciens. Sans nécessairement aller jusqu'à une position extrême comme le rationalisme de Platon, certains mathématiciens dits spiritualistes considèrent que l'univers mathématique possède une réalité intrinsèque que le chercheur ne fait que découvrir. D'autres ont une position plus constructiviste et considèrent que les mathématiques ne sont qu'une construction de l'esprit humain.

Quoi qu'il en soit au plan philosophique, ne nous y trompons pas : la valeur exacte d'un paramètre décrivant une population nous est généralement inconnue, quand elle n'est pas franchement inconnaissable. On ne peut généralement en obtenir qu'une approximation, et c'est précisément ce à quoi sert la statistique calculée à partir des données recueillies sur l'échantillon : nous fournir une estimation de la valeur du paramètre.

Dans le cadre de la présente leçon d'introduction, nous restons au niveau des concepts très fondamentaux et nous ne rentrerons pas plus avant dans la description des distributions. Ces points seront traités plus en détail dans la grande leçon intitulée Statistique descriptive.

 

Dernière mise à jour : ( 24-01-2009 )