La loi hypergéométrique

Présentation de la loi hypergéométrique

Cette loi de probabilité discrète au nom intimidant est très proche de la loi binomiale. Elle décrit comme elle une suite d’épreuves dont le résultat aléatoire est binaire (de type succès vs échec). La seule différence est qu’une même pièce, ou un même individu, ne peut apparaître deux fois. Il s’agit donc d’un tirage exhaustif, c’est-à-dire « sans remise ».

 

Approximation

La loi hypergéométrique fait intervenir deux paramètres de taille : celui de l’échantillon \(n\) et celui de la population de référence \(N.\)

En théorie, c’est la loi hypergéométrique qui devrait être utilisée dans la plupart des situations concrètes. Par exemple, si l’on effectue un contrôle de qualité sur la pêche d'une tonne de poissons, on ne remet pas dans le tas un poisson qui vient d’être contrôlé avant d’en tirer au sort un deuxième…

st-pierre

En pratique, on la remplace souvent par une autre loi, quitte à perdre un peu d'exactitude. Si \(N\) est très élevé, on l'utilise rarement car sa formule est tout de même un peu alambiquée et il est plus pratique de l’approximer, selon le cas, par la loi binomiale (si le taux de sondage \(\frac{n}{N}\) est inférieur à \(10\%\), par la loi normale ou par la loi de Poisson. Surtout, elle impose de connaître \(N\) (c’est-à-dire qu’il faudrait d’abord compter le nombre total de poissons).

Ces contraintes limitent l’utilisation de la loi hypergéométrique.

 

Écriture

Si une variable aléatoire \(X\) suit une loi hypergéométrique, on l’écrit ainsi, \(p\) étant la probabilité de l’évènement favorable  : \(X \leadsto \mathscr{H} (N,; n\,; p)\)

 

Formules

Le calcul d’une probabilité nécessite celui de trois combinaisons :

\(P(X = k)\) \(=\) \(\displaystyle{\frac {{\left( {\begin{array}{*{20}{c}}
Np\\
k
\end{array}} \right)}{\left( {\begin{array}{*{20}{c}}
N(1-p)\\
n-k
\end{array}} \right)}}{{\left( {\begin{array}{*{20}{c}}
N\\
n
\end{array}} \right)}}}\)

Il n'est pas nécessaire d'apprendre cette formule, à moins de devoir la programmer ! Elle permet néanmoins de comprendre le test exact de Fisher. Mais c'est une autre histoire.

L’espérance est la même que celle de la loi binomiale, à savoir \(np.\) En revanche, la variance est un tout petit peu inférieure puisqu’à chaque tirage on retire une observation de l’échantillon :

\(V(X)\) \(=\) \(\frac{N - n}{N - 1} np(1 - p)\)

 

Exemples

Soit un comité de quinze spécialistes qui ont une idée tranchée sur une question d’importance : « doit-on enseigner la loi hypergéométrique dès le lycée ? ». Trois d’entre eux y sont favorables mais le ministre des probabilités ignore lesquels. Il demande à quatre spécialistes de lui expliquer leurs positions et il se rangera à l’avis de la majorité. Quelle est la probabilité qu’il n’y ait pas de majorité (ce qui plongera le ministre dans un abîme d’embarras) ? Quelle est la probabilité que le ministre opte pour l’enseignement de la loi hypergéométrique au lycée ? Quelle est la probabilité de priver les lycéens d’une telle joie ?

Réponse : il n’y pas de majorité si, lors d’un tirage sans remise de quatre individus parmi quinze, il y en a exactement deux qui sont favorables à l’idée soumise. La probabilité d’être favorable est de \(\frac{3}{15},\) soit 0,2.

\(X \leadsto \mathscr{H} (15\,; 3\,; 0,2)\)

\(P(X = 2)\) \(=\) \(\displaystyle{\frac{{\left( {\begin{array}{*{20}{c}}
15 \times 0,2\\
2
\end{array}} \right)}{\left( {\begin{array}{*{20}{c}}
15 \times 0,8\\
4-2
\end{array}} \right)}}{{\left( {\begin{array}{*{20}{c}}
15\\
4
\end{array}} \right)}}}\) \(\approx\) \(0,145\)

On se passera de dessiner l'arbre de probabilités. Contrairement à la présentation qu'il est pédagogique d'utiliser avec la loi binomiale, il n’est pas facile de rattacher la formule à une explication « visuelle »…

Avec Excel ou le tableur d’OpenOffice, il suffit d’entrer par le menu ou de saisir le texte =LOI.HYPERGEOMETRIQUE(2;4;3;15) dans une cellule pour obtenir ce résultat (nombre de succès dans l’échantillon \(k,\) puis \(n,\) puis le nombre de succès dans la population et enfin \(N.\) On peut ainsi explorer toutes les possibilités de cette loi…

les 4 possibilités

Ce tableau nous donne l’occasion de répondre rapidement à la deuxième question. La probabilité d’avoir une majorité de « contre », c’est-à-dire 0 ou 1 succès, s’établit à 0,846. La probabilité que les trois spécialistes « pour » fassent partie de l’échantillon s’élève à 0,009. D’ailleurs, si l’on additionne les trois probabilités (majorité de « pour », de « contre » et égalité), on obtient bien 1 aux arrondis près.

Il est très simple de réaliser des tables de la loi hypergéométrique avec Excel. Voyons un second exemple.

Une entreprise qui emploie 2 500 cadres publie une plaquette affirmant qu’elle respecte la parité entre les hommes et les femmes. Nous ne disposons de statistiques que sur 100 d’entre eux parmi lesquels 41 seulement sont des femmes. Peut-on estimer avec \(5\%\) de risque de se tromper qu’il y a bien parité ?

Nous utilisons la loi hypergéométrique car la variable observée est binaire et parce qu’un individu ne peut être comptabilisé plus d’une fois. Définissons un intervalle de pari autour de la probabilité de 0,5 qui correspond à la situation de parfaite parité. Excel ne permet pas d’obtenir directement les probabilités cumulées. Une façon simple de procéder est d’insérer la fonction LOI.HYPERGEOMETRIQUE dans une première colonne puis un cumul dans une seconde colonne :

extrait de table

Pour respecter le niveau de risque assumé, on retire 0,025 de chaque côté de la distribution, donc le cumul des probabilités doit se situer entre 0,025 et 0,975. On trouve ainsi que l’échantillon doit comprendre entre 40 et 60 femmes. On peut ainsi supposer qu’il y a parité puisque notre échantillon en comprend 41. La loi binomiale donnerait d’ailleurs le même résultat.

 

épreuves