Techniques et concepts de l'entreprise, de la finance et de l'économie 
(et fondements mathématiques)

Un exemple de test d'indépendance

logo

 

 

 

 

 

 

 

 

 

 

Sorties de logiciels : indépendance du khi²

La page que vous avez le bonheur de consulter présente des sorties de logiciels à partir d'un exemple simple.

Dans le cadre d’un scoring d’acceptation pour un crédit d’acquisition de produits électroménagers, on observe une population de 1 933 demandeurs en fonction de quatre tranches d’âge et du critère accepté vs refusé (variable DEC). Existe-t-il un lien entre ces tranches d’âges (variable quantitative considérée comme qualitative) et la décision ?

acceptés / refusés

Coupons court au suspense, le χ² est égal à 40,186 avec (4 – 1)(2 – 1) = 3 degrés de liberté. La valeur de la probabilité associée au test est donc quasi nulle (9,7 . 10-9). Pas d’hésitation possible : c’est avec un certain enthousiasme que l’on rejette l’hypothèse nulle, ce nombre étant largement inférieur au 0,05 usuel… Il y a donc bien une « discrimination » sur l’âge. Le χ² et toutes les statistiques complémentaires ci-dessous trouveraient toutefois leur pleine utilité en comparant ce tableau avec un autre, dans lequel les tranches d’âges seraient un peu différentes (ceci pour savoir si un autre découpage laisserait envisager une grille de score plus discriminante).

Excel : après avoir entré le tableau ci-dessus, il convient de construire vous-même le tableau des valeurs théoriques… (voir comment en page test d’indépendance du khi²). Placez-vous ensuite sur une cellule vierge et appelez la fonction TEST.KHIDEUX. Vous entrez ensuite les deux plages de valeurs, observées et théoriques, et Excel vous donne la p-value associée au test. Inférieure à 0,05 ? Vous avez détecté une liaison !

SAS : devant l’étendue des possibilités de SAS, on se contentera d’observer la sortie d’une proc freq avec l’option / chisq.

Je passe sur le tableau qui inclut effectifs, pourcentages du total, en lignes et en colonnes pour me rendre directement au résultat.

sortie SAS

NB : Contingency Coefficient et Cramer's V : voir page mesures d'association.

Statgraphics Centurion : procédure Tri croisé si les données ne sont pas déjà sous forme de tableau puis procédure Tableaux de contingence. En sortie : tableau des effectifs, histogrammes, le test du χ², des statistiques résumées et les rapports des chances estimés et risques relatifs. Avec pour chaque rapport un petit commentaire explicatif. Je ne détaille ci-dessous que le rapport « Statistiques résumées » sans les commentaires associés.

tableau Statgraphics

tableau 2

Tanagra : nécessite d’entrer les données en liste. Je n’ai pas indiqué les sorties dans la mesure où d’autres exemples de restitutions du χ² données par ce logiciel libre sont indiquées sur ce site (voir test d’indépendance du khi²). Signalons les particularités suivantes : tableau de contingence avec cases colorées en rouge lorsque leur contribution est deux fois plus élevée que la contribution moyenne, statistiques relativement complètes (T de Tschuprows, U de Theil…).

XLSTAT : beaucoup d’informations. Statistiques habituelles du χ² puis du G² de Wilks (le Likelihood Ratio Chi-Square de SAS). Un χ² peut en outre être estimé par la méthode de Monte Carlo. Les mesures d’association sont les suivantes :

Sorties Xlstat

D’autres mesures apparaissent dans des cas particuliers de tableaux ayant le même nombre de lignes que de colonnes (Kappa de Cohen) ou de tableaux 2 × 2 (Q de Yule, Y de Yule, odds ratio, log odds ratio). Le tableau de contingence est restitué sous de nombreuses formes, y compris graphiques.

Sans acquisition de logiciel (mais avec Internet) : voir page test de la médiane.

 

liaison

 

© JY Baudot - Droits d'auteur protégés