Techniques et concepts de l'entreprise, de la finance et de l'économie 
(et fondements mathématiques)

Les échantillons aléatoires

logo

 

 

 

 

 

 

 

 

 

 

Échantillonnage aléatoire non stratifié

Recensement ou sondage ?

Une collecte de données peut être exhaustive. Il s’agit alors d’un recensement (census), une pratique qui aurait déjà 5 000 ans si l’on en croit Hérodote, toujours très bien informé.

Le recensement permet l'utilisation de statistiques descriptives. À titre d'exemple, la plupart des statistiques effectuées dans une DRH le sont sur l’effectif total de la société. Les bases de données sont fiables et de volumétrie raisonnable. Dans le B to B, des enquêtes sont conduites sur la totalité des clients. Dans le B to C, des statistiques descriptives sont éventuellement réalisées sur l'ensemble des distributeurs ou sur toute la clientèle s’il existe une base de données (VPC, téléphonie, abonnements divers, banques, cartes de fidélité…). Jusque là, tout va bien.

En revanche, une étude fondée sur des questionnaires ou le contrôle qualité d’une production à grande échelle nécessitent des sondages. On procède alors à un échantillonnage, aléatoire ou non, en prélevant un échantillon de taille n sur une population-mère N. Si le tirage est aléatoire, on a le bonheur de pouvoir étendre la démarche statistique, seulement descriptive sur l'échantillon, à la population. Comment ? Par des méthodes inférentielles, ce qui est théoriquement impossible avec  un sondage par choix raisonné. Conceptuellement, on passe de la variable statistique à la variable aléatoire grâce à la théorie des probabilités.

Une fois définie la population N, dispose-t-on d’une base de sondage qui permette de l’identifier ? Si la réponse est oui, grâce à une base de données interne ou externe, vous avez gagné un tirage aléatoire ! Félicitations… Il vous reste à choisir une technique parmi celles qui sont décrites ci-dessous et à déterminer la taille de l’échantillon. Évidemment, l'absence de base de sondage n'interdit pas un choix qui sera quand même considéré comme aléatoire. Une certaine souplesse est souvent un passage obligé. Si l'on doit faire germer 100 grains de blé sur un milliard, on ne s'amuse pas à les numéroter...

Le ratio n / N est appelé taux de sondage. La précision du résultat ne dépend pas de lui ; elle augmente en fonction de la racine carrée de n.

Sondages aléatoires simples (simple random samplings)

Quand on travaille sur une base de données de forte volumétrie, c’est la technique la plus rapide à mettre en œuvre. Un échantillon peut aussi être constitué lorsque la population mère est relativement restreinte et identifiable : les exemples que j'ai pris pour illustrer le recensement s'observent ici aussi. Deux méthodes de sondage simple sont utilisées. Elles nécessitent l’attribution d’un numéro par observation puisque c’est sur ce numéro que l’échantillonnage sera réalisé.

La première méthode est le sondage élémentaire. Excel et les logiciels de statistiques disposent d’une fonction permettant un tirage aléatoire parmi une population. Sinon, il existe des tables de nombres aléatoires. La seconde est le tirage systématique (systematic design) qui nécessite un tri préalable et la sélection des numéros selon une suite arithmétique de raison N / n (premier terme déterminé au hasard entre 1 et N / n). Un bon choix de la variable de tri permet un résultat parfois plus fiable qu’avec un sondage élémentaire. Par ailleurs, en cas de problème informatique, il est possible de réitérer le même sondage systématique et donc de retrouver les mêmes résultats, ce qui n’est pas possible avec un sondage élémentaire dont la sélection a été opérée par le logiciel !

Si l’on utilise la proc SURVEYSELECT de SAS/STAT, on obtient un sondage élémentaire en précisant method=srs. Sur BASE SAS, un sondage systématique ne nécessite pas de procédure particulière une fois le tri réalisé. Exemple :

data echantillon ;
set echantillon ;
if mod(_N_,14)=0 ;
run ;

SAS a sélectionné les observations 14, 28, 42, etc.

Ce type de sondage est évidemment très coûteux si les informations ne figurent pas dans la base de données et si un enquêteur doit se déplacer. Voyons maintenant les autres sondages aléatoires.

Le sondage par grappes

Pour réduire les coûts d’une enquête ou pour disposer d’une base de sondage qui nous fait défaut, il est pratique de ne pas sélectionner directement les observations mais des grappes, c’est-à-dire des sous-ensembles de la population mère (unités primaires) qui incluent des observations (unités secondaires). Une entreprise constitue une grappe de salariés, la clientèle d’un magasin observée sur un laps de temps donné constitue une grappe de consommateurs et un logement inclut une grappe d’individus. Bref, nous sommes tous potentiellement les grains de nombreuses grappes… Un sondage dont les grappes sont des zones géographiques est dit « aréolaire ».

On procède donc à un échantillonnage aléatoire de grappes sur lesquelles on effectue une enquête exhaustive. Cet échantillonnage peut être équiprobable sur les grappes ou, si l’on connaît les effectifs, de probabilité proportionnelle à ces derniers (les grappes n’ayant pas forcément un effectif identique). La variance de la moyenne estimée d’une variable ne se calcule pas tout à fait de la même façon dans un cas ou dans l’autre.

Malheureusement, il existe un risque que les résultats soient moins fiables qu’avec un échantillonnage aléatoire simple. Pour l’éviter, les grappes doivent être le plus petites possible, et de tailles pas trop dissemblables. Il faut également que le paramètre qu’on cherche à estimer (moyenne ou proportion) soit le plus homogène possible d’une grappe à l’autre mais il s’agit là d’une vérification a posteriori.

Le sondage à plusieurs degrés

Exemple d’un sondage à trois degrés : on constitue aléatoirement un échantillon d’unités primaires (par exemple des pays), puis dans cet échantillon on tire des unités secondaires (un certain nombre de zoos), puis parmi elles un certain nombre d’unités tertiaires (des chimpanzés dont on étudie le comportement). La base d’échantillon est simplifiée, l’enquête est moins coûteuse qu’un échantillonnage aléatoire simple mais la fiabilité des observations peut s’en ressentir, à l’instar du sondage par grappes (habitudes communes du groupe de chimpanzés d’un zoo donné).

Afin d’éviter des distorsions, les tirages ne doivent pas être équiprobables à chaque degré et c’est là la principale difficulté de l’opération (sauf si tous les pays abritaient le même nombre de zoos hébergeant le même nombre de chimpanzés). Dans notre exemple, il faudrait avoir une idée approximative du nombre de chimpanzés captifs dans chaque pays afin que les tirages aléatoires soient réalisés sur la base de probabilités composées.

Les sondages par grappes et à plusieurs degrés sont fréquents : contrôle de qualité d’une production par lots, études de marchés sur certains points de vente, mesures d’audience…

La stratification

Une connaissance préalable de la population peut permettre un échantillonnage stratifié a priori. En regroupant l'échantillon par strates homogènes, on obtient des estimateurs de la population beaucoup plus précis (moyennes ou proportions), leurs étant plus faibles.

La stratification a posteriori : à partir d'un sondage aléatoire simple, on définit les strates supposées connues sur la population mère puis on redresse l’échantillon en pondérant les observations pour y retrouver les mêmes proportions. Moins précis que la stratification a priori mais davantage que le sondage aléatoire simple. C’est une technique utilisée pour redresser des échantillons comportant beaucoup de non-réponses.

L’échantillonnage en deux stades

D’abord, échantillonnage aléatoire simple puis enquête au cours de laquelle sont collectées des informations dont certaines sont utiles pour procéder à une seconde enquête, plus approfondie. Donc, parmi les enquêtés, sélection des éligibles puis nouvel échantillonnage.

 

refus

 

© JY Baudot - Droits d'auteur protégés