La stratification a priori

Échantillonnage stratifié

Sondage aléatoire, certes, mais avec une importante opération de chirurgie esthétique. Jugez-en.

L’établissement de l’échantillon commence par le choix de sous-ensembles homogènes (donc de faible dispersion) : les strates. Celles-ci sont choisies par l’analyste en fonction de leur corrélation avec les variables à étudier. La stratification suppose donc une connaissance a priori de la population. Puis, au sein de chaque strate, on procède à un échantillonnage aléatoire simple.

Plusieurs niveaux de strates peuvent coexister. A titre d’exemple, un échantillonnage d’entreprises peut être opéré à partir d’une strate sur des zones d’activité puis d’une sous-strate sur les entreprises elles-mêmes selon leur taille. Voici pour le principe.

Deux options : soit le même taux de sondage dans chaque strate (échantillon représentatif ou proportionnel), soit l’optimisation de la taille de chaque sous-échantillon en le pondérant par les écarts-types. Cette deuxième technique, dite « de Neyman », est particulièrement astucieuse s’il existe de fortes disparités intra-classes. Plus la dispersion est importante dans une strate, plus le taux de sondage y sera élevé. À défaut de connaître la variance, on utilise la SOMME de la variable considérée (les deux étant souvent bien corrélées).

L’intérêt de toutes ces péripéties, c’est que les sondages sur sous-ensembles homogènes sont plus précis qu’un sondage global, et ce d’autant plus lorsque les strates montrent de fortes disparités entre elles, comme on le verra sur un exemple. Si l’on estime une moyenne par stratification, sa variance sera plus faible que si elle est estimée à partir d’un échantillon aléatoire simple. On a moins de risque de sélectionner un échantillon bizarroïde.  Si c’est une proportion que l’on estime, les remarques sont les mêmes puisqu’on utilise alors une variable d’intérêt dichotomique traitée comme une moyenne.

La variance globale de la population est décomposable en intra et inter-strates (phénomène bien connu, voir pages inertie, ANOVA, typologies, analyse factorielle discriminante...). Nommons h l’indice d’une strate :

variance avec stratification

D’autres avantages sont à prendre en compte comme la spécialisation éventuelle des enquêteurs.

Les limites de la technique apparaissent quand les critères de stratification sont mal maîtrisés et que des erreurs polluent le classement. Mais les résultats ne seront pas biaisés pour autant et pas moins fiables qu’avec un échantillonnage aléatoire simple, contrairement à ce qu’on obtiendrait avec des quotas mal définis. Par ailleurs, la sagesse recommande d’arbitrer entre le gain de précision et le coût éventuel d’une stratification super bien ficelée.

Exemple : soit un audit social réalisé dans une banque parfaitement fictive. On souhaite interroger un échantillon représentatif de 200 salariés qui reflète la diversité des niveaux hiérarchiques. Ces niveaux sont liés à des coefficients. Toutes les directions doivent être représentées et c’est le critère d’appartenance à une direction qui servira de strate.

stratification

Vérifions le gain de précision sur notre exemple en calculant les trois variances de l’espérance. Pour cela, on a besoin de connaître la variance de l’échantillon. Dans la réalité, on l’obtiendrait grâce à la base de données mais ici on ne dispose que d’un tableau récapitulatif. On va néanmoins la retrouver grâce à sa décomposition, comme vu plus haut avec la formule de la variance de population, sauf qu’on lui applique la correction habituelle pour qu’elle soit sans biais.

pour variance d'échantillon stratifié

Ce qui saute aux yeux, c’est que la quasi-totalité de la variance totale s’explique par les coefficients de la direction des marchés, très éloignés de ceux des autres directions. La variance intra-strate n’est jamais très forte, montrant une relative homogénéité au sein de chaque direction. Du coup, il est logique que l’écart-type global soit bien plus élevé que n’importe quel écart-type intra-classe.

L’estimateur de la moyenne globale est le suivant :

estimateur de moyenne

Et c’est la variance de cette chose-là que l’on cherche à diminuer en stratifiant le sondage.

Maintenant que nous disposons de tous les éléments, revenons à notre préoccupation de comparer les trois variances qu’il est possible d’obtenir.

Premièrement, sondage aléatoire simple.

Sans stratification, la variance d’un estimateur de moyenne se présente ainsi :

variance de moyenne

Soit : [(6 780 – 200) / (6 780 – 1)] × 9 973 / 200 = 48,4.

Deuxièmement, sondage stratifié proportionnel.

La formule exacte d’une variance d’échantillon stratifiée est la suivante :

variance de moyenne (stratif)

En l’appliquant, on trouve 1,53. Le gain de précision par rapport à 48,4 est particulièrement énorme. C’est logique puisque l’essentiel de la variance globale est dû, comme on l’a vu, à une variance interclasses écrasante.

Troisièmement, sondage stratifié optimal.

Avec la même formule, on trouve 1,39. Il n’y a plus grand-chose à grappiller par rapport à la stratification précédente ! Mais cet exemple est un cas d’école, avec de faibles variances « within ». Toutes les populations ne présentent pas une configuration aussi particulière…

NB : pour la démarche de cet exemple, je me suis inspiré de l’exercice donné par Daudin, Robin et Vuillet, « Statistique inférentielle. Idées, démarches, exemples » (PUR 2001) p. 25. Présentation et chiffres sont évidemment différents, et j’ai utilisé les formules exactes, indiquées notamment par Bernard Grais.

 

strates