Techniques et concepts de l'entreprise, de la finance et de l'économie 
(et fondements mathématiques)

La loi hypergéométrique

logo

 

 

 

 

 

 

 

 

 

 

Loi hypergéométrique : présentation et exemples

Cette loi de probabilité discrète au nom intimidant est très proche de la loi binomiale. Elle décrit comme elle une suite d’épreuves dont le résultat aléatoire est binaire (de type succès vs échec). La seule différence est qu’une même pièce, ou un même individu, ne peut apparaître deux fois. Il s’agit donc d’un tirage exhaustif, c’est-à-dire « sans remise ».

En théorie, c’est la loi hypergéométrique qui devrait être utilisée dans la plupart des situations concrètes. Par exemple, si l’on effectue un contrôle de qualité sur une tonne de patates, on ne remet pas dans le tas une patate qui vient d’être contrôlée avant d’en tirer au sort une deuxième…

La loi hypergéométrique fait intervenir deux paramètres de taille : celui de l’échantillon (n) et celui de la population de référence (N). Si N est très élevé, on utilise rarement cette loi car sa formule est tout de même un peu alambiquée et il est plus pratique de l’approximer, selon le cas, par la loi binomiale (si le taux de sondage n / N est inférieur à 10 %), par la loi normale ou par la loi de Poisson. Surtout, elle impose de connaître N (c’est-à-dire qu’il faudrait d’abord compter le nombre total de patates). Ces contraintes limitent l’utilisation de la loi hypergéométrique…

Si une variable aléatoire X suit une loi hypergéométrique, on l’écrit ainsi (p est la probabilité de l’évènement favorable) :

loi hypergéométrique

Le calcul d’une probabilité nécessite celui de trois combinaisons :

loi hypergéométrique

Cette formule n'est pas forcément utile à apprendre, à moins de devoir la programmer ! Elle permet néanmoins de comprendre le test exact de Fisher. Mais c'est une autre histoire.

L’espérance est la même que celle de la loi binomiale, à savoir np. En revanche, la variance est un tout petit peu inférieure puisqu’à chaque tirage on retire une observation de l’échantillon :

variance

Exemples

Soit un comité de quinze spécialistes qui ont une idée tranchée sur une question d’importance : « doit-on enseigner la loi hypergéométrique dès le lycée ? ». Trois d’entre eux y sont favorables mais le ministre des probabilités ignore lesquels. Il demande à quatre spécialistes de lui expliquer leurs positions et il se rangera à l’avis de la majorité. Quelle est la probabilité qu’il n’y ait pas de majorité (ce qui plongera le ministre dans un abîme d’embarras) ? Quelle est la probabilité que le ministre opte pour l’enseignement de la loi hypergéométrique au lycée ? Quelle est la probabilité de priver les lycéens d’une telle joie ?

Réponse : il n’y pas de majorité si, lors d’un tirage sans remise de quatre individus parmi quinze, il y en a exactement deux qui sont favorables à l’idée soumise. La probabilité d’être favorable est de 3 / 15, soit 1 / 5, soit 0,2.

loi hypergéométrique (exemple)

détail du calcul

On se passera de dessiner l'arbre de probabilités. Contrairement à la présentation qu'il est pédagogique d'utiliser avec la loi binomiale, il n’est pas facile de rattacher la formule à une explication « visuelle »…

Sur Excel ou sur le tableur d’OpenOffice, il suffit d’entrer par le menu ou de saisir le texte =LOI.HYPERGEOMETRIQUE(2;4;3;15) dans une cellule pour obtenir ce résultat (nombre de succès dans l’échantillon (k), puis taille de l’échantillon (n), puis nombre de succès dans la population et enfin taille de la population (N)). On peut ainsi explorer toutes les possibilités de cette loi…

les 4 possibilités

Ce tableau nous donne l’occasion de répondre rapidement à la deuxième question. La probabilité d’avoir une majorité de « contre », c’est-à-dire 0 ou 1 succès, s’établit à 0,846. La probabilité que les trois spécialistes « pour » fassent partie de l’échantillon s’élève à 0,009. D’ailleurs, si l’on additionne les trois probabilités (majorité de « pour », de « contre » et égalité), on obtient bien 1 aux arrondis près.

Il est très simple de réaliser des tables de la loi hypergéométrique avec Excel. Voyons un second exemple.

Une entreprise qui emploie 2 500 cadres publie une plaquette affirmant qu’elle respecte la parité entre les hommes et les femmes. Nous ne disposons de statistiques que sur 100 d’entre eux parmi lesquels 41 seulement sont des femmes. Peut-on estimer avec 5 % de risque de se tromper qu’il y a bien parité ?

Nous utilisons la loi hypergéométrique car la variable observée est binaire et parce qu’un individu ne peut être comptabilisé plus d’une fois. Définissons un intervalle de pari autour de la probabilité de 0,5 qui correspond à la situation de parfaite parité. Excel ne permet pas d’obtenir directement les probabilités cumulées. Une façon simple de procéder est d’insérer la fonction LOI.HYPERGEOMETRIQUE dans une première colonne puis un cumul dans une seconde colonne :

extrait de table

Pour respecter le niveau de risque assumé, on retire 0,025 de chaque côté de la distribution, donc le cumul des probabilités doit se situer entre 0,025 et 0,975. On trouve ainsi que l’échantillon doit comprendre entre 40 et 60 femmes. On peut ainsi supposer qu’il y a parité puisque notre échantillon en comprend 41. La loi binomiale donnerait d’ailleurs le même résultat.

 

épreuves

 

© JY Baudot - Droits d'auteur protégés