Techniques et concepts de l'entreprise, de la finance et de l'économie 
(et fondements mathématiques)

Le test d'ajustement du khi²

logo

 

 

 

 

 

 

 

 

 

 

Test d'adéquation du khi-deux

Un grand classique. Un must have des manuels de statistiques. C’est le test d’ajustement le plus célèbre car le plus souvent enseigné, malgré ses limites.

Sa mission consiste à évaluer si une distribution observée peut être estimée ou non par une loi de probabilité. Il vérifie donc un ajustement, une adéquation (goodness of fit).

Le principe est le suivant : on mesure des distances entre chaque valeur observée et une valeur théorique, on en fait la somme puis on mesure le montant de cette somme à l’aune d’une norme acceptable pour répondre à la question « notre modélisation est-elle valable ? » Présenté ainsi, ce principe peut aussi s’appliquer à une régression linéaire simple ou multiple

Il existe tout de même des différences, à commencer par la métrique puisqu’on utilise ici la distance du khi², c’est-à-dire (O étant un effectif observé et T un effectif théorique) :

définition khi²

D’autres tests unilatéraux d’ajustement utilisent d’autres distances. Un test du χ² est fréquemment accompagné d’un test de Kolmogorov-Smirnov, deux précautions valant mieux qu’une…

Contrairement au test du χ² d’indépendance, celui d’adéquation ne compare que des distributions selon un seul critère. Les tableaux de contingence sont ici hors sujet. Mais un test d’indépendance sur un seul critère peut être considéré comme un test d’ajustement à une loi uniforme.

Sous l’hypothèse H0, l’ajustement à la loi théorique est bon. Le test nécessite que la distance trouvée soit comparée à la valeur que prend la loi du χ² pour [n – 1 – nombre de paramètres estimés de la loi théorique)] degrés de liberté. Évidemment, la conclusion du test dépend aussi de la marge d’erreur que l’on s’est donnée.

Un ajustement ne s’effectue pas uniquement par rapport à une loi théorique mais aussi au regard d’autres observations, notamment pour vérifier si un échantillon reflète bien, sur un critère qualitatif particulier, les statistiques établies au niveau de la population globale. Notamment, j’aime beaucoup l’illustration donnée par E. Vernette (Techniques d’études de marché, Vuibert 2006, p. 70) qui montre comment un test du χ² permet de supposer qu’un enquêteur bidonne ses interviews !

Une classe d’effectif théorique doit comprendre au moins cinq observations. Dans le cas contraire, on regroupe la classe sous-représentée avec la suivante ou la précédente.

Les problématiques diffèrent toujours mais d’une façon générale, on souhaite pouvoir ajuster les observations à une loi, au contraire du test d’indépendance où l’on espère bien détecter une liaison.

Dans le cadre d’une étude de marché, on relève une série de notes attribuées par 30 répondants à un message publicitaire. Peut-on estimer que ces notes suivent une loi normale ? Le test du χ² peut-il être confirmé par d’autres tests ?

exemple

Pour répondre à ces questions, j’entre ces valeurs dans Statgraphics Centurion. Menu « décrire », puis « lois » puis « ajustements de lois (données non censurées) ». On n’obtient pas directement le résultat souhaité mais avec un clic droit sur la fenêtre du test de Shapiro-Wilks, on peut ajouter des options, notamment le test du χ².

sortie Statgraphics

On ne rejette pas l’hypothèse selon laquelle la distribution observée suit une loi normale (d’espérance 25,43 et d’écart-type 11,32). Néanmoins, on devine sur le graphique ci-dessous qu’une loi triangulaire serait davantage adaptée.

comparaison visuelle de lois

L’analyse réalisée par XLSTAT est assez différente. Certes, les paramètres estimés de la loi normale sont les mêmes mais les notes sont partagées en 10 classes, contre 15 par Statgraphics. Compte tenu des regroupements de classes d’effectifs théoriques, le nombre de degrés de liberté est de 7. En revanche, Statgraphics donne peu d’informations et, au vu des résultats, il semble bien que le nombre de degrés de liberté soit de 12, c’est-à-dire qu’aucun regroupement de classe n’est effectué…

sortie Xlstat

On conclut que l’échantillon suit très probablement une loi normale. Les détails sont fournis par le logiciel :

détail

Avec les versions utilisées (2009), il semble donc que XLSTAT soit plus fiable que Statgraphics sur les tests du χ².

 

adéquation

 

© JY Baudot - Droits d'auteur protégés