Techniques et concepts de l'entreprise, de la finance et de l'économie 
(et fondements mathématiques)

Le test d'indépendance du khi²

logo

 

 

 

 

 

 

 

 

 

 

Test du khi-deux d'indépendance

Un grand classique de l'analyse d'une distribution à deux variables...

Je suppose que vous savez ce qu’est un tableau de contingence ? Exact, c’est un tableau à double entrée dont les cellules indiquent un décompte (soit deux variables qualitatives ayant chacune plusieurs modalités, soit deux variables quantitatives présentées en classes, soit un mix des deux). Voici un exemple de tableau de contingence indiquant des quantités de CD vendus sur quatre points de vente en fonction de leur style musical (tableau Excel) :

contingence

On souhaite savoir si, compte tenu de leur emplacement, ces points de vente attirent ou non des clientèles différentes (sans supposer de lien de causalité ; nous serions alors dans le cadre d’une association asymétrique). Sur un total de 1 659 CD, la part de chaque style selon le point de vente s’établit donc comme suit :

effectifs en pourcentages

En-dehors du tableau sont indiquées les fréquences marginales, en lignes et en colonnes.

Si les styles étaient répartis de la même façon quel que soit le point de vente, l’effectif de chaque case du tableau serait égal au produit des fréquences observées sur les deux modalités étudiées, appliqué à l’effectif total.

Ainsi, Paris-Classique = 4,52 % × 37,73 % × 1 659 = 28,3.

valeurs théoriques

La problématique se résume à un test : peut-on accepter l’hypothèse H0 selon laquelle cette distribution théorique n’est pas significativement différente de la distribution observée ? Pour répondre à cette question, on construit un indicateur d’écart. Appelons-le D² (son nom n’est jamais le même selon les ouvrages). Ce sera la somme, pour chaque croisement de modalités, des écarts élevés au carré et rapportés à l’effectif théorique. On ne le démontrera pas ici mais vous pouvez me croire sur parole, cette somme suit une loi du χ² à (I 1)(J 1) degré(s) de liberté (I étant le nombre de lignes du tableau de contingence et J le nombre de colonnes).

Remarquons au passage que, si l’on peut théoriquement procéder à un test du χ² sur un tableau de quatre cases, on préfère dans ce cas opter pour un test de comparaison de proportions si l'effectif le permet. Le χ² établi sur un seul degré de liberté est surestimé et on le corrige généralement (correction de Yates, voir page test de la médiane).

Si l’on note T l’effectif théorique et O l’effectif observé, on résume :

khi²
et

D²

Petite précision : en principe, on ne conserve pas d'effectif théorique inférieur ou égal à 5. Or, dans notre exemple, nous en avons un de 4,7… Mais soyons cool, nous n’en sommes pas très loin et il ne s’agit que d’une seule case sur 20… Si le tableau avait été plus petit, il aurait été préférable soit de regrouper le style « jazz & blues » avec, par exemple, le style « rock », soit d’utiliser une autre méthode que le χ².

Il existe plusieurs statistiques pour évaluer l’indépendance ou l'association entre modalités de variables.

On pourrait comparer à sa valeur critique dans une table du χ², en fonction du nombre de degrés de liberté (ddl) et du risque d’erreur accepté. Toutefois, les logiciels nous fournissent directement la probabilité que le χ² soit supérieur ou égal à (p-value). Supposons qu’on accepte un risque d’erreur de 5 %, il suffit alors de comparer la probabilité obtenue à 0,05. Dans notre exemple, elle est de 0,007 (pour un χ² à 12 ddl égal à 27,24). On peut donc supposer que les points de vente n’ont pas la même clientèle et que les petites différences ne proviennent pas d’une fluctuation d’échantillonnage.

Limites : malgré sa popularité, le χ² montre des insuffisances et c’est pourquoi tous les logiciels de statistiques lui joignent d’autres statistiques plus robustes, à l’image de Tanagra (ci-dessous). Notamment, le χ² est sensible aux effectifs : à titre d’exemple, ce test peut nous conduire à rejeter l’indépendance mais, si l’on multiplie toutes les cases du tableau par 10, ce même test nous la fera accepter.

Tableau Tanagra

Un exemple de χ² appliqué au scoring est donné pour « survoler » quelques sorties de logiciels.

Enfin, si l’on analyse un très grand tableau de contingence ou si l’on souhaite visualiser graphiquement les proximités, on procède plutôt à une AFC.

 

le statistichien

 

© JY Baudot - Droits d'auteur protégés