Les échantillons aléatoires

Recensement vs sondage aléatoire

Quand il est impossible d'étudier l'ensemble d'une population statistique, on en prélève une partie appelée échantillon et c'est lui qui sera analysé. Les conclusions seront extrapolées à l'ensemble de la population. C'est le principe du raisonnement inductif, avec toutes les incertitudes qu'il implique.

Le processus est long. Délimitation de la population, création d'une base de sondage puis d'une règle d'échantillonnage, collecte des données... S'en suivront un nettoyage du jeu de données, des traitements statistiques puis leur présentation aux commanditaires qui prendront alors des décisions (voir la démarche statistique).

 

Recensement ou sondage ?

Une collecte de données peut être exhaustive. Il s’agit alors d’un recensement (census), une pratique qui aurait déjà 5 000 ans si l’on en croit Hérodote, toujours très bien informé.

Le recensement permet l'utilisation de statistiques descriptives. À titre d'exemple, la plupart des statistiques effectuées dans une DRH le sont sur l’effectif total de la société. Les bases de données sont fiables et de volumétrie raisonnable. Dans le B to B, des enquêtes sont conduites sur la totalité des clients. Dans le B to C, des statistiques descriptives sont éventuellement réalisées sur l'ensemble des distributeurs ou sur toute la clientèle s’il existe une base de données (VPC, téléphonie, abonnements divers, banques, cartes de fidélité…). Jusque là, tout va bien.

recensement

En revanche, une étude fondée sur des questionnaires ou le contrôle qualité d’une production à grande échelle nécessitent des sondages. On procède alors à un échantillonnage, aléatoire ou non, en prélevant un échantillon de taille \(n\) sur une population-mère \(N.\) Pourquoi ?

  • Le coût d'un recensement est très élevé. Il n'est pas envisageable qu'un institut demande à toute une population quelles sont ses intentions de vote ni à un service qualité de mesurer au millilitre près le contenu de toute les bouteilles d'eau minérales qui sortent de sa chaîne de production.

  • Il arrive que la mesure détruise l'unité statistique. Si par exemple une entreprise teste la vitesse d'usure d'un mécanisme, il est évident que les pièces testées, donc usées, ne seront pas vendues.

  • La population peut être composée d'un nombre d'unités infini ou inconnu. Nous ne situerons pas dans cette éventualité mais elle existe...

Or, les chances sont infimes qu'un échantillon reflète exactement les caractéristiques de la population. La différence est appelée erreur d'échantillonnage. Si le tirage est aléatoire, on a le bonheur de pouvoir étendre la démarche statistique, seulement descriptive sur l'échantillon, à la population. Comment ? Par des méthodes inférentielles, ce qui est théoriquement impossible avec  un sondage par choix raisonné. Conceptuellement, on passe de la variable statistique à la variable aléatoire grâce à la théorie des probabilités. L'objectif n'est pas de supprimer l'erreur d'échantillonnage mais de la réduire pour un coût acceptable. Ceci suppose qu'on l'a estimée.

Concrètement une fois définie la population dont la taille est \(N,\) l'idéal est de disposer d'une base de sondage, c'est-à-dire de la liste des unités statistiques qui composent la population. Si c'est le cas, grâce à une base de données interne ou externe, vous avez gagné un tirage aléatoire ! Félicitations… Il vous reste à choisir une technique parmi celles qui sont décrites ci-dessous et à déterminer la taille de l’échantillon. Évidemment, l'absence de base de sondage n'interdit pas un choix qui sera quand même considéré comme aléatoire. Une certaine souplesse est souvent un passage obligé. Si l'on doit faire germer 100 grains de blé sur un milliard, on ne s'amuse pas à les numéroter...

Le ratio \(\frac{n}{N}\) est appelé taux de sondage. La précision du résultat ne dépend pas de lui ; elle augmente en fonction de la racine carrée de \(n.\)

 

Sondages aléatoires simples (simple random samplings)

Quand on travaille sur un jeu de données de forte volumétrie, c’est la technique la plus rapide à mettre en œuvre. Un échantillon peut aussi être constitué lorsque la population mère est relativement restreinte et identifiable : les exemples choisis pour illustrer le recensement s'observent ici aussi. Deux méthodes de sondage simple sont utilisées. Elles nécessitent l’attribution d’un numéro par unité puisque c’est sur ce numéro que l’échantillonnage sera réalisé.

La première méthode est le sondage élémentaire. Excel et les logiciels de statistiques disposent d’une fonction permettant un tirage aléatoire parmi une population. Sinon, il existe des tables de nombres aléatoires. La seconde est le tirage systématique (systematic design) qui nécessite un tri préalable et la sélection des numéros selon une suite arithmétique de raison \(\frac{N}{n}\)(premier terme déterminé au hasard entre 1 et \(\frac{N}{n}.\) Un bon choix de la variable de tri permet un résultat parfois plus fiable qu’avec un sondage élémentaire. Par ailleurs, en cas de problème informatique, il est possible de réitérer le même sondage systématique et donc de retrouver les mêmes résultats, ce qui n’est pas possible avec un sondage élémentaire dont la sélection a été opérée par le logiciel !

Un sondage peut s'avérer très coûteux si les informations utiles ne figurent pas dans la base de données et si un enquêteur doit se déplacer. Voyons maintenant les autres types de sondages aléatoires.

 

Le sondage par grappes

Pour réduire les coûts d’une enquête ou pour disposer d’une base de sondage qui nous fait défaut, il est pratique de ne pas sélectionner directement les unités statistiques mais des grappes, c’est-à-dire des sous-ensembles de la population mère (unités primaires) qui incluent des unités secondaires. Une entreprise constitue une grappe de salariés, la clientèle d’un magasin observée sur un laps de temps donné constitue une grappe de consommateurs et un logement inclut une grappe d’individus. Bref, nous sommes tous potentiellement les grains de nombreuses grappes… Un sondage dont les grappes sont des zones géographiques est dit « aréolaire ».

On procède donc à un échantillonnage aléatoire de grappes sur lesquelles on effectue une enquête exhaustive. Cet échantillonnage peut être équiprobable sur les grappes ou, si l’on connaît les effectifs, de probabilité proportionnelle à ces derniers (les grappes n’ayant pas nécessairement un effectif identique). La variance de la moyenne estimée d’une variable ne se calcule pas tout à fait de la même façon dans un cas ou dans l’autre.

Malheureusement, il existe un risque que les résultats soient moins fiables qu’avec un échantillonnage aléatoire simple. Pour l’éviter, les grappes doivent être le plus petites possible, et de tailles pas trop dissemblables. Il faut également que le paramètre qu’on cherche à estimer (moyenne ou proportion) soit le plus homogène possible d’une grappe à l’autre mais il s’agit là d’une vérification a posteriori.

 

Le sondage à plusieurs degrés

La population est découpée en sous-ensembles. Tirage aléatoire d'unités primaires puis, pour chacune de celles qui ont été tirées, nouveau tirage aléatoire (contrairement au sondage par grappes).

Exemple d’un sondage à trois degrés : on constitue aléatoirement un échantillon d’unités primaires (par exemple des pays), puis dans cet échantillon on tire des unités secondaires (un certain nombre de zoos), puis parmi elles un certain nombre d’unités tertiaires (des chimpanzés dont on étudie le comportement). La base d’échantillon est simplifiée, l’enquête est moins coûteuse qu’un échantillonnage aléatoire simple mais la fiabilité des observations peut s’en ressentir, à l’instar du sondage par grappes (habitudes communes du groupe de chimpanzés d’un zoo donné).

chimpanzé par Margat, MAM

Afin d’éviter des distorsions, les tirages ne doivent pas être équiprobables à chaque degré et c’est là la principale difficulté de l’opération (sauf si tous les pays abritaient le même nombre de zoos hébergeant le même nombre de chimpanzés). Dans notre exemple, il faudrait avoir une idée approximative du nombre de chimpanzés captifs dans chaque pays afin que les tirages aléatoires soient réalisés sur la base de probabilités composées.

Les sondages par grappes et à plusieurs degrés sont fréquents : contrôle de qualité d’une production par lots, études de marchés sur certains points de vente, mesures d’audience…

 

La stratification

Une connaissance préalable de la population peut permettre un échantillonnage stratifié a priori. En regroupant l'échantillon par strates homogènes, on obtient des estimateurs de la population beaucoup plus précis (moyennes ou proportions), leurs variances étant plus faibles.

La stratification a posteriori : à partir d'un sondage aléatoire simple, on définit les strates supposées connues sur la population mère puis on redresse l’échantillon en pondérant les observations pour y retrouver les mêmes proportions. Moins précis que la stratification a priori mais davantage que le sondage aléatoire simple. C’est une technique utilisée pour redresser des échantillons comportant beaucoup de non-réponses.

L’échantillonnage en deux stades : d’abord, échantillonnage aléatoire simple puis enquête au cours de laquelle sont collectées des informations dont certaines sont utiles pour procéder à une seconde enquête, plus approfondie. Donc, parmi les enquêtés, sélection des éligibles puis nouvel échantillonnage.

 

refus