Population au sens statistique
La population est une notion essentielle en statistiques. Pourtant, elle fait rarement l'objet d'un long développement. Eh bien pas ici. Une page juste pour elle. Enfin, surtout pour vous...
Définitions
Une population est un ensemble (au sens mathématique) dont les éléments sont des unités statistiques. Elles peuvent être appelées individus si ce sont des humains ou parfois des animaux.
Une population sur laquelle porte une étude est dite population mère.
Au sens courant (et économique), la population est l'ensemble des habitants d'une zone géographique.
Taille
Traditionnellement, sa taille est notée \(N.\) C’est le nombre d’unités qu’elle contient. Synonyme : effectif total. Chaque unité est unique (pléonasme).
Comme un raisonnement statistique s’appuie sur une population, on retrouve fréquemment \(N\) au dénominateur des formules ! Il peut toutefois arriver que la taille \(N\) soit inconnue ou infinie.
Délimitation
En théorie statistique, la taille \(N\) est donnée. Mais en pratique, c’est souvent un casse-tête de définir les règles d’appartenance à une population. En fait, c’est la connaissance du sujet ou simplement le bon sens qui guide le statisticien. Ce n’est pas une technique que l’on trouve dans les manuels ! Ni ici, d’ailleurs.
D’abord il faut savoir ce que doit être une unité statistique. Dans le cas d’une étude de marché pour un produit de grande consommation, c’est un être humain. Il n’y a pas débat. Mais pour une mesure de pollution de l’air ou de l’eau, comment délimiter l’unité ? Est-ce un mètre cube ? Un centilitre ?
Ensuite il faut adopter une définition rigoureuse, signifiante au regard du ou des critères à étudier. Ainsi l’INSEE comptabilise les chômeurs au sens du BIT tandis que France Travail comptabilise les demandeurs d’emploi. Ce ne sont pas les mêmes populations.
Qu’observe-t-on ?
La statistique est un domaine riche en vocabulaire, si riche que des notions très proches portent des noms différents. Sans compter les synonymes. Ce n’est pas toujours facile d’être rigoureux mais tâchons d’y voir clair.
Sur chaque unité statistique, on dispose d’un ou plusieurs caractères à étudier.
Ces critères sont des variables statistiques. Elles sont souvent quantitatives mais il n’est pas rare qu’elles soient qualitatives ou ordinales. Les traitements statistiques ne seront pas les mêmes selon la nature de la variable. Précisons si besoin est qu’une variable est soit quantitative soit qualitative mais pas les deux.
Une unité statistique munie des valeurs prises par les variables est une observation.
L’ensemble des valeurs prises par les variables constitue les données.
La plupart du temps, on n’étudie pas toute une population mais un échantillon de celle-ci. Il existe deux grandes familles d’échantillonnage : aléatoire et par choix raisonné.
Prenons un exemple.
Soit une collection de pièces romaines. Elle est composée de deniers et d’antoniniens (un antoninien vaut deux deniers).
Effigie | Type de pièce | Année |
Alexandre Sévère | Denier | 231 |
Balbin | Antoninien | 238 |
Otacilie | Antoninien | 248 |
Julia Paula | Denier | 220 |
Hostilien | Antoninien | 250 |
On considérera que même si la collection se complète il n’y aura pas d’empereur ou d’impératrice représentée à la fois sur un denier et sur un antoninien. Par conséquent, on peut considérer chaque effigie comme une unité statistique. Sinon, il aurait fallu affecter un numéro de collection à chaque pièce, et c’est ce numéro qui aurait été l’unité.
Il y a deux variables : le type de pièce et l’année d’émission. La première est qualitative, la seconde est quantitative discrète.
Chaque ligne du tableau correspond à une observation.
Les données de Balbin sont Antoninien et 238.
La pièce ci-dessus représente l’antoninien d’Hostilien (image en open data du musée Carnavalet). On pourrait d’ailleurs ajouter une quatrième colonne à notre tableau pour y intégrer les photos de chaque pièce. L’image en elle-même ne serait pas une variable statistique. Mais elle serait tout de même une donnée, exploitable par un logiciel d’intelligence artificielle (on peut supposer une analyse du modèle de la pièce et de ses éventuels défauts pour en déterminer un prix).
Nous avons évoqué la définition des unités statistiques mais celles des variables et de leurs modalités sont tout aussi essentielles. Par exemple, les polémiques sur le nombre de décès dus au Covid-19 portaient beaucoup sur leur définition (comment comptabiliser les causes multifactorielles ?).
Représentation de la population
Les possibilités de traitement statistique sont nombreuses et ce n’est pas l’objet de cette page d’en faire le tour. Mais parmi eux, il y a la représentation de la population. Nous retiendrons quatre types.
- Les paramètres : les caractères observés sont résumés par quelques grandeurs calculées : moyenne, écart-type…
- Les tableaux : les tableaux montrent davantage de détails puisque la population est découpée selon certaines modalités et des informations sont données pour chacune d’elles (somme, moyenne, proportion…). Voir l'interprétation des tableaux.
- Les graphiques : ils permettent de visualiser la population sous différentes formes. Par exemple, une répartition selon une variable qualitative peut être présentée sous forme de diagramme circulaire. Si la variable est quantitative discrète, on peut opter pour le graphique en barres. Si la variable est continue, l’histogramme est mieux adapté. Et n’oublions pas la répartition par zones géographiques sur une carte. Quant aux courbes, elles montrent surtout les évolutions.
- La représentation théorique : nous entrons dans le domaine des statistiques plus élaborées. On peut vouloir résumer la population par une équation, par exemple en vue d’élaborer des modèles mathématiques. Cette équation prend la forme d’une expression de loi de probabilité. La plus usuelle est la loi normale, ou loi de Gauss. Il existe des techniques, d’ailleurs décrites sur ce site, pour savoir si l’on peut approximer une distribution par telle ou telle loi.