Une initiation aux fluctuations d'échantillonnage

Intervalles de fluctuation et d'échantillonnage

C’est en classe de seconde que l’on découvre les problèmes d’échantillonnage. Ce n’est pas la partie la plus abstraite du programme de maths : en ce vingt-et-unième siècle où les statistiques se faufilent partout, il est indispensable de connaître les mécanismes qui se cachent derrière les chiffres dont nous sommes abreuvés.

De nombreuses statistiques sont établies à partir d’échantillons. De quoi s’agit-il ?

 

L’échantillon

Un échantillon est une partie d’une population de référence (en terme mathématique : un sous-ensemble). On l’estime représentatif de cette population au vu d’un ou plusieurs caractères étudiés.

Son rôle est d’éviter le recueil des données sur l’ensemble de la population, soit que l’opération serait trop coûteuse, soit qu’elle serait tout simplement impossible. Par exemple, il n’est pas envisageable d’interroger tous les électeurs sur leurs intentions de vote avant un scrutin.

Habituellement, on utilise la lettre \(n\) minuscule pour représenter la taille d’un échantillon.

L’opération par laquelle on recueille les données d’un échantillon est un sondage ou échantillonnage.

On peut définir l’échantillonnage avec le vocabulaire des probabilités : ce sont \(n\) répétitions indépendantes de la même expérience.

 

Les fluctuations d’échantillonnage

Quatre amis jouent à la belote. Ils détiennent chacun huit cartes sur un jeu de 32 parfaitement mélangé. Comme un quart des cartes sont des trèfles, chaque joueur devrait statistiquement en recevoir deux. Or, l’un détient cinq trèfles, un autre en a deux, le troisième n’en possède qu’un seul et le dernier n’en a aucun.

Ainsi, chaque joueur détient un échantillon tiré d’une population de cartes mais le hasard a voulu que seul l’un d’entre eux en ait une main qui comporte bien deux trèfles. Cette possible variété des échantillons est nommée fluctuation d’échantillonnage.

Cette notion est très importante. Un échantillon représente plus ou moins bien la population de référence et donc les conclusions que l’on pourra tirer d’une étude basée sur un échantillon seront… plus ou moins justes !

Dans notre exemple, la proportion de trèfles est de un quart (sur une population de 32 cartes). Les fréquences observées sur les quatre échantillons sont \(\frac{5}{8}\) (donc 0,625), \(\frac{2}{8}\) (donc 0,25), \(\frac{1}{8}\) (donc 0,125) et 0.

On peut estimer une probabilité de recevoir un nombre donné de trèfles (quoique ce sont surtout les joueurs de poker qui maîtrisent les probabilités !). Dans la mesure où l’échantillonnage comporte une part de hasard, on doit d’une part raisonner sur des intervalles et d’autre part accepter une probabilité de se tromper.

 

Les intervalles

Il existe deux problématiques d’échantillonnage qui se traduisent par des calculs presque identiques mais un vocabulaire différent.

Lorsqu’on observe la fréquence d’un caractère sur un échantillon et que l’on ne connaît pas la vraie proportion sur la population, on établit un intervalle de confiance autour de la fréquence observée. On estime donc une réalité inconnue grâce à un échantillon. C’est presque toujours dans le cadre de cette problématique-ci que l’on procède à des échantillonnages et c’est ce que font les instituts de sondage.

À l’inverse, lorsqu’on connaît la proportion \(p\) d’un caractère dans une population de référence et que l’on souhaite savoir si la fréquence observée sur un échantillon lui est conforme, on détermine autour de \(p\) un intervalle de fluctuation. Dans la pratique, cette approche est plus rare.

 

La taille de l’échantillon

Un échantillon ne doit pas être trop petit car la fluctuation de la fréquence observée entre un échantillon et un autre varie trop. Il est stupide d’établir des calculs à partir d'une base trop instable. L’exemple du jeu de cartes l’a montré : des échantillons où \(n = 8\) montrent des fréquences trop dissemblables. En revanche, selon la loi des grands nombres, plus l'échantillon est grand et plus la fréquence totale observée se rapproche de la proportion théorique. Les statisticiens ne sont pas tous d’accord sur les conditions à remplir pour qu'un échantillon soit considéré comme fiable mais nous retiendrons que \(n\) doit être au moins égal à 25.

On admettra aussi que la proportion \(p\) doit être comprise entre 0,2 et 0,8.

 

Le seuil

Bien souvent, on accepte une probabilité de se tromper de 0,05. On parle d'un seuil de confiance de \(95\%.\)

 

Formules

Pour une proportion \(p\) comprise entre 0,2 et 0,8 et si la taille de l’échantillon est supérieure à 25, alors on peut admettre que pour \(95\%\) des échantillons aléatoires de taille \(n\) issus d’une population, la fréquence observée se situe dans l’intervalle de fluctuation suivant :

\[\left[p - \frac{1}{\sqrt{n}}\,;p + \frac{1}{\sqrt{n}}\right]\]

Pour une fréquence \(f\) comprise entre 0,2 et 0,8 et si la taille de l’échantillon est supérieure à 25, alors on peut admettre avec un seuil de confiance de \(95\%\) que la proportion \(p\) de la population se situe dans l’intervalle de confiance suivant :

\[\left[f - \frac{1}{\sqrt{n}}\,;f + \frac{1}{\sqrt{n}}\right]\]

Si vous souhaitez simuler des échantillonnages et valider leur appartenance à l'intervalle de fluctuation, rendez-vous en page de simulations d'échantillonnage avec Python.

 

Exemple 1

En août 2011, il s’est vendu en Union Européenne 787 435 voitures particulières dont 164 150 de marque française (Renault et PSA ; source CCFA). Un employé de préfecture constate que sur 1 000 voitures immatriculées ce mois-ci 251 sont de marque française. Il affirme que cette proportion est représentative de celle constatée dans l’UE. A-t-il raison ? On considérera que oui si la fréquence qu’il a observée a 95 chances sur 100 de se situer dans un intervalle situé autour de la proportion européenne.

Réponse : la proportion d’immatriculations de voitures de marque française s’établit dans l’UE à \(20,85\%\) sur ce mois d’août. Si un échantillon est considéré comme représentatif de cette population, alors il doit se situer dans l’intervalle \(\left[0,2085 - \frac{1}{\sqrt{1000}}\,;0,2085 + \frac{1}{\sqrt{1000}}\right]\) donc entre 0,177 et 0,24, ce qui n’est pas le cas de la fréquence de 0,251 observée par ce cher employé de préfecture qui a tort de se montrer aussi péremptoire.

 

Exemple 2

On estime qu'en République Démocratique d'Échantillonie il y a à peu près autant d’hommes que de femmes. Par ailleurs, on compte 500 parlementaires. Au seuil de \(95\%,\) quel effectif minimum de femmes le parlement doit-il comporter pour que l’on admette qu'il y a parité ?

Réponse : comme \(p = 0,5\) et \(n = 500,\) les conditions sont remplies pour retenir la borne inférieure de l’intervalle de fluctuation. La proportion minimale doit être de \(0,5 - \frac{1}{\sqrt{500}} \approx 0,4553.\)

Traduisons-la en effectif : \(500 × 0,4553 \approx 227,6.\) Le parlement doit comporter au moins 228 femmes pour que la parité soit respectée (et non pas 250 comme on aurait pu le croire avant d’étudier les fluctuations d’échantillonnage).

 

sondage