Test de conformité d'une proportion à une norme
Cette proportion de dattes véreuses, observée sur quelques kilos, sera-t-elle compatible avec les normes de qualité à l’échelle de la récolte ? La part d’imbéciles au volant ressortant d’une étude dans ce pays étranger permet-elle à notre compagnie d’assurances de s’y implanter et d’y être rentable ?
Pourquoi un test
On observe sur un échantillon aléatoire une certaine fréquence que l'on compare à une norme. La différence constatée est-elle due à une fluctuation d’échantillonnage ou s'éloigne-t-elle significativement du standard ?
On sait que, dans la plupart des cas, le meilleur estimateur ponctuel de la norme, assimilée à une proportion sur une population globale, est tout simplement la fréquence empirique, c'est-à-dire observée (voir page test de proportion entre deux échantillons). Autour de l’estimation est établi un intervalle de confiance. Notre interrogation de départ revient alors à évaluer si, pour un niveau de confiance donné, la norme se situera ou non dans cet intervalle.
Un test d’hypothèses donne un cadre rigoureux pour une prise de décision argumentée.
Comment faire
Précisons que l’échantillon doit être suffisamment grand pour que la loi hypergéométrique, qui devrait théoriquement être utilisée, tende vers une loi normale. Si un test \(z\) (dont le test de proportion est un cas particulier) nécessite une trentaine d’observations lorsque la vraie variance est inconnue, certains auteurs valident un test de proportion si la condition suivante est respectée :
Soit \(p\) la proportion standard à laquelle on compare notre fréquence observée et \(n\) la taille de l’échantillon.
\[p - \sqrt{\frac{p(1 - p)}{n}} > 0\]
\[p + \sqrt{\frac{p(1 - p)}{n}} < 1\]
Une autre condition d’application est parfois édictée : l’effectif minimal \(np\) ou \(n(1 - p)\) doit être supérieur ou égal à 5 (vérification a posteriori car il s’agit de l’effectif observé).
Enfin, d’autres auteurs énoncent des stipulations plus exigeantes : effectif supérieur ou égal à 30, \(np > 15\) et \(np (1 - p) > 5.\)
Le test de proportion ne fait pas partie de l’utilitaire d’analyse d’Excel mais sa construction avec un tableur ne présente pas un challenge insurmontable.
Les limites de la région d’acceptation sont les suivantes pour un test bilatéral :
\[l = p \pm t_{1 - \alpha / 2} \sqrt{\frac{p(1 - p)}{n}}\]
Pour l’habituel seuil alpha de 0,05, \(t = 1,96.\)
Si H1 : standard > \(p\) (test unilatéral)
\[l = p + t_{1 - \alpha} \sqrt{\frac{p(1 - p)}{n}}\]
Et inversement si standard < \(p.\) Pour un seuil de 0,05, \(t = 1,65.\)
Exemple
L’exemple suivant a été exécuté avec Minitab. Ce logiciel permet deux types d’entrées : soit les données brutes, c’est-à-dire une colonne constituée de 0 et de 1 (évènements réalisés ou non), soit directement les résultats observés. On opte avec joie et facilité pour cette deuxième solution.
Soit un échantillon de 100 répondants d'une enquête de satisfaction dont 76 déclarent apprécier un service. Or, on estime que l’ensemble de la clientèle devrait être satisfaite à plus de \(85\%.\) Pour un niveau de risque de \(5\%,\) peut-on considérer la qualité de service comme suffisante ?
En l'espèce, le test est unilatéral : pas de problème si la proportion de satisfaits devait dépasser \(85\%\) !
H0 : \(p = 0,85\)
H1 : \(p < 0,85\)
Approximation par la loi normale :
La borne supérieure de la région d’acceptation s'établit à 0,83. On le vérifie facilement avec la formule.
\(0,83\) \(=\) \(0,76 + 1,65 \sqrt{\frac{0,76 \times 0,24}{100}}\)
Il se trouve donc que la norme de 0,85 est trop élevée… L’hypothèse H0 est impitoyablement rejetée. La p-value nous indique que même au seuil de \(1\%,\) on n’estime pas que la qualité de service est suffisante. Pourtant, si l’on indique \(1\%\) à Minitab…
N’est-ce pas contradictoire ? La p-value est inférieure à \(1\%\) et pourtant la valeur 0,85 est de justesse dans l’intervalle ! Malgré un effectif de 100, nous touchons aux limites de l’approximation par la loi normale… Heureusement, Minitab nous permet de procéder au test exact en utilisant la loi binomiale, très bonne approximation de la loi hypergéométrique, ce qui mettra fin à notre perplexité :
Voici qui est cohérent ! L’intervalle est un peu plus resserré, ce qui est logique puisque nous perdons une petite marge due à l’approximation. Malgré cela, on ne rejette pas H0 : 0,85 est inférieur à la limite et c’est parfaitement cohérent avec la p-value dont la valeur exacte est supérieure à \(1\%.\)