Le test de Mann-Whitney

Test de Wilcoxon-Mann-Whitney

Le test non paramétrique de Mann-Whitney est le bienvenu pour comparer deux échantillons indépendants de petite taille. Il est valide sur des données cardinales ou ordinales, voire des variables différentes observées sur deux populations. Toutefois, en pratique, il permet surtout d'estimer si les variables de deux échantillons suivent la même loi de probabilité. Ce qui revient souvent à se demander si ces échantillons proviennent de la même population.

Il est quelquefois appelé « test de Wilcoxon ». Mais ne le confondez pas pour autant avec le test signé des rangs de Wilcoxon

 

De très petits échantillons

La taille minimale de chaque échantillon est de quatre unités. C'est moins exigeant que le test concurrent de Kolmogorov-Smirnov et a fortiori que les tests paramétriques. Une technique parfois concurrente est le test de la médiane. Si les deux échantillons comptent au moins une dizaine d'observations chacun, le test de Mann-Whitney perd de son intérêt puisqu'un test paramétrique devient alors légitime.

 

Principe

Ce test utilise les rangs, c’est-à-dire l’ordre dans lequel apparaissent les valeurs des deux échantillons lorsqu'il sont réunis et triés. Il teste l’hypothèse H0 selon laquelle les échantillons sont identiquement positionnés.

Illustrons son principe sur une variable ordinale. En l'occurence, munissons-nous de cartes à jouer.

Imaginons deux paquets issus d’un jeu de 54 cartes, par exemple les piques et les trèfles triés de l’as jusqu’au dix (soit deux paquets de dix, bravo pour le calcul). Mélangez-les en seul geste de façon à respecter l’ordre de chaque paquet. Ce test vous dira si votre mélange a été homogène ou non. Comment ? En affectant un numéro de 1 à 20 à l’ordre d’apparition dans le nouveau paquet unique puis en observant les \(10^2 = 100\) paires possibles. Dès lors, on ne s’occupe plus de la valeur de la carte mais seulement de sa couleur et de son nouveau numéro. Pour combien de paires le numéro du trèfle est-il supérieur à celui du pique (ou inversement) ?

piques

La statistique de Mann-Whitney, sobrement notée \(U,\) est ce nombre. Dans notre exemple, elle est située entre 0 et 100 et son espérance est égale à 50. Sa variance s’établit à \(\frac{100(20+1)}{12} = 175.\)

Selon que l’on compare les trèfles aux piques ou inversement, on obtiendra un nombre inférieur ou supérieur à 50. Cela n’a pas d’importance puisqu’il y a symétrie. Certains auteurs ou logiciels choisissent le plus petit, d’autres s’attachent à l’ordre dans lequel les séries sont observées (auquel cas soyez vigilants si votre test est unilatéral).

Ce fameux \(U\) suit une loi normale. Donc, ayant toutes les informations pour le centrer et le réduire, on peut déterminer s’il peut être considéré comme suivant une loi de Gauss d’espérance nulle et d’écart-type égal à 1.

On peut aussi utiliser directement les tables de Mann-Whitney. Elles indiquent la valeur limite de U en fonction des effectifs de chacun des échantillons (il existe une table par niveau de confiance). Comme on l’imagine, plus \(U\) s’éloigne de l’espérance, plus les deux échantillons présentent la chance (ou le risque, c’est selon) d’être différemment positionnés. C’est l’écart positif entre \(U\) et l’espérance que l’on compare avec les valeurs indiquées par les tables de Mann-Whitney.

Notez que dans le cas de variables ordinales, les ex-æquo sont affectés d’un rang avec décimales.

 

Exemple (avec variable numérique)

Soit une compagnie aérienne dont la flotte est constituée de 8 appareils A (rouges) et de 11 appareils B (bleus). Sur une période donnée, le nombre d’incidents relevés sur chaque avion est utilisé pour savoir s’il existe une différence significative de fiabilité entre les deux types d’appareils.

données

Ce qui va nous intéresser est la colonne « rang » du tableau ci-dessous et uniquement celle-ci (ce deuxième tableau n'est présenté qu’à des fins pédagogiques ; il est évident que c’est à partir des chiffres ci-dessus que l’analyse est effectuée).

rangs

Utilisons le logiciel XLSTAT. Un test bilatéral est réalisé à un niveau de signification de \(5\%.\) Voici les résultats :

résultats

On ne prend pas le risque de refuser  H0. Rappelons que dans le cas extrême où les deux échantillons ne seraient pas du tout mélangés, \(U\) serait égal à 0 ou à 88. Ici, 33,5 est suffisamment proche de l’espérance de 44. On peut donc estimer qu’il n’existe pas de différence de fiabilité entre les deux types d’avions.

Note : ce test s'enorgueillit d'une variante utilisant la statistique de Wilcoxon \(W_x,\) somme des rangs, qui n’est pas abordée ici.

 

Mann-Whitney