Techniques et concepts de l'entreprise, de la finance et de l'économie 
(et fondements mathématiques)

La loi du khi²

logo

 

 

 

 

 

 

 

 

 

 

Loi et utilisations du khi-deux

Voici une loi de probabilité bien pratique. Si son objet n’est pas de décrire la répartition d’une population, elle n’en reste pas moins une star des statistiques.

D’abord nous verrons qui peut suivre une distribution du χ² car cet exploit n’est pas donné à tout le monde. Ensuite, cette loi fera une entrée triomphale sous forme de graphe puis elle nous présentera ce dont elle est capable.

Fiche signalétique

C’est la loi que suit une somme de variables aléatoires (v.a) gaussiennes indépendantes, centrées, réduites et mises au carré. Bien entendu, cette somme est elle-même une v.a.

Si l’on observe n v.a, la distribution suit une loi du χ² à n degrés de liberté (ddl). De fait, il existe autant de distributions du χ² que de valeurs de n. Deux précisons : on analyse des NOMBRES d’observations et non des pourcentages ou des probabilités, et au-delà d’une trentaine, l’approximation par la loi normale est possible.

Dès lors qu’il existe des liaisons entre v.a, le nombre de ddl est n – nombre de liaisons.

Exemple :

exemple

D’abord, on voit que ce tableau montre un effectif de 2 en modalité A. Or, une classe doit contenir au moins cinq observations pour être « khideusable ». Si l’on regroupe A et B, on obtient un tableau de quatre cases, mais il existe une liaison entre elles : il suffit de connaître les quatre premières pour en déduire la dernière car le total est un élément connu a priori. Par conséquent, on retient trois ddl.

Autre exemple. Soit le tableau de contingence suivant (chaque case contient un effectif), dont l'établissement a été possible grâce à la connaissance des effectifs marginaux :

tableau de contingence

Les liaisons s’effectuent en colonnes et en lignes. Seules huit cases ne peuvent être devinées (j’ai arbitrairement surligné celles qui se trouvent en haut à gauche ; il faut se souvenir que l’on « évacue » une ligne et une colonne). Nombre de ddl = 8.

Revenons à la théorie.

La formule de la densité de probabilité, qui inclut la fonction gamma, a fière allure :

loi du khi²

Ajoutons à ceci la propriété d’additivité de cette loi, que l’on devine d’ailleurs au vu de ce que je vous ai raconté auparavant. Si X et Y sont des v.a indépendantes qui suivent des lois du χ² à respectivement n et m ddl, alors X + Y suit tout simplement une loi du χ² à n + m ddl.

L’espérance mathématique est égale au nombre de ddl n (vérifiez-le pifométriquement sur les courbes ci-dessous) et la variance est égale à 2n (on constate aussi que l’étalement des densités de probabilité est lié au nombre de ddl).

Album photos

La fonction de densité diffère selon le nombre de ddl. Commençons par les degrés 1 et 2 qui sont des cas particuliers (réalisations sur Gretl) :

1 ou 2 ddl

Ensuite, les courbes ressemblent de plus en plus à celle de la loi normale au fur et à mesure que le nombre de ddl augmente, en application du théorème central-limite (représentation de trois en trois ci-dessous, jusqu’à trente ddl).

plusieurs ddl

Les grands exploits du khi²

La distribution du χ² est utilisée pour les tests d’indépendance. Sur la page consacrée à cette ludique activité (mais si, mais si), j’ai pris l’exemple d’un χ² à douze ddl (donc courbe rose ci-dessus) avec une valeur de 27,2. On constate que les chances de tomber sur cette valeur sont minces. En page sorties de logiciel pour test du χ², l’exemple présente cette fois-ci trois ddl (première courbe rouge ci-dessus) et un χ² de 40. Il est évident que les chances sont cette fois-ci quasi nulles pour qu’une valeur de 40 soit prise par cette courbe.

Les arbres de décision CHIAD intègrent ces tests d’indépendance.

En second lieu, cette loi permet de tester la qualité d’ajustement entre une distribution observée et une distribution théorique (voire entre deux distributions observées).

En revanche, l’expression « distance du χ² », utilisée notamment dans le cadre de l’AFC, signifie que la métrique est la même que celle utilisée par les tests du χ² pour évaluer les distances entre unités statistiques, variables ou modalités, mais la loi stricto sensu n’intervient pas.

Enfin, par sa définition même, la variance d’un échantillon de taille n est une v.a qui suit une loi du χ² à – 1 ddl.

Pour mémoire, le rapport de deux v.a indépendantes suivant chacune une loi du χ², divisées par leurs nombres respectifs de ddl, suit quant à lui une loi de Fisher (dont l'utilité apparaît en page test du F).

 

degrés de liberté

 

© JY Baudot - Droits d'auteur protégés