La comparaison de deux populations

Tests de moyenne et de variance sur 2 populations

La question du jour : nous sommes en présence de deux sous-populations et nous souhaitons savoir si elles sont incluses dans la même population. Ou alors, ce sont deux échantillons dont on se demande s'ils peuvent être mélangés dans la marmite d’un data analyst pour diverses expériences. Les comparaisons d'échantillons (et non plus de sous-populations) sont davantage utilisées dans le domaine médical mais les contrôles de qualité et les études de marché peuvent y recourir.

 

Problématique

On considère que deux populations sont les mêmes si elles présentent la même moyenne et la même variance.  Deux tests vont nous permettre de répondre à la question. En pratique, on ne teste pas les moments suivants (skewness et kurtosis). D’ailleurs, nous avouons ignorer si de tels tests existent.

Peut-on considérer que les deux populations présentent la même moyenne ? On utilise le test de comparaison de moyennes sur échantillons indépendants en utilisant le \(t\) de Student, voire la loi normale si ces échantillons présentent des effectifs supérieurs à 30.

Quant à l’égalité des variances, elle se teste avec le \(F\) de Fisher.

 

Exemple

Voyons un exemple. Les observations sont les rémunérations des effectifs de deux unités d’une même société (la population 1 est celle d’une usine et la population 2 est celle du siège). On aimerait bien savoir si, avec une marge d’erreur autorisée de \(5\%,\) on peut considérer ces deux sous-populations comme identiques. À vue de nez, elles semblent assez différentes :

2 échantillons

Ce n’est pas pour faire de la publicité déguisée mais après m’être cassé la tête sur une demi-douzaine de logiciels, nous avons réalisé simultanément les deux tests sur Statgraphics Centurion (version anglaise) en moins d’une minute avec la fonction de comparaison de deux échantillons.

D’abord, juste pour info, les statistiques descriptives :

stats descriptives

Ensuite, le test de moyenne :

test de moyennes

Note : ces états sont expurgés des commentaires qui nous semblent relever de la propriété intellectuelle de l’éditeur.

On remarque que, malgré des rémunérations moyennes assez dissemblables (environ 20 000 et 25 000 €), on considère d’extrême justesse qu’elles peuvent n’être dues qu’à une fluctuation d’échantillonnage, la p-value étant supérieure à 0,05.

Seconde vérification. Les deux variances peuvent-elles être considérées comme semblables ?

test du F

Ici, on compare un écart-type de 9 000 avec un autre de 15 000 (environ). Du coup, la p-value est quasi nulle. Les deux variances ne peuvent être considérées comme identiques.

Pour terminer, Statgraphics propose en option un test supplémentaire, celui de Mann-Whitney qui valide ou non l’égalité des médianes. En l’occurrence, elles sont considérées comme identiques.

comparaison des médianes

Conclusion : les structures des rémunérations du siège et de l’usine sont différentes, non pas parce que les moyennes sont dissemblables mais parce que la dispersion observée au siège est très importante par rapport à celle de l’usine...

 

deux sous-populations