L'ACP des rangs

Analyse en Composantes Principales sur les rangs

Les résultats d’une analyse en composantes principales (ACP) peuvent être faussés par d'incongrus outliers. Un moyen d’obtenir une analyse plus robuste est d’utiliser les rangs plutôt que les valeurs des variables. Exemple théorique : quatre individus prennent les valeurs (triées) 2, 5, 7 et 100. Le dernier présente une valeur aberrante. Les corrélations se feront sur leur rang : 1, 2, 3 et 4. Ainsi, la valeur prise par le quatrième devient 4 au lieu de 100, ce qui n’écrase pas les autres observations. Plus généralement, des distributions qui s'éloignent de la normalité invitent à utiliser cette technique.

Une autre raison vous invitera peut-être à vous aventurer sur ces axes factoriels peu fréquentés : des données ordinales.

 

Principe

Il existe deux coefficients de corrélation des rangs, celui de Spearman et celui de Kendall. Donc, au lieu d’utiliser une matrice de corrélation de Pearson, on recourt à celles de Spearman ou de Kendall. Hormis le mode de calcul des coefficients, il n’existe aucune différence avec une ACP paramétrique, ni dans les calculs, ni dans l’interprétation.

 

Exemple

Cette page donne les résultats d’une ACP sur les variables. Les données sont celles de la page de résultats d’une ACP sur les variables (source Boursorama. Chiffres 2005 en K€, parfois estimés). Elles sont anciennes et très peu nombreuses mais cela n'a pas la moindre importance. D’une manière générale, les données sur les entreprises présentent souvent une dispersion si forte qu’une ACP des rangs se révèle plus efficace que l’ACP habituelle.

données

Il existe une observation statistiquement aberrante : General Motors (en raison de sa perte colossale). Pour info, la matrice des corrélations de Pearson, obtenue par XLSTAT :

matrice des corrélations

Maintenant, appréciez la différence avec les matrices de corrélation des rangs (on peut se demander où est la validité d’une ACP mais c’est juste parce que l’effectif est faible !). Ci-dessous, Spearman puis Kendall :

Matrice Spearman

Kendall

Ces deux dernières présentent quelques écarts mais sans commune mesure avec la matrice de Pearson. Les valeurs propres sont les suivantes (Spearman puis Kendall) :

Valeurs propres Spearman

Valeurs propres Kendall

Si l’on s’en tient au critère de Kaiser (valeurs propres > 1), les deux techniques suggèrent de ne considérer que trois axes (idem avec Pearson). Dans ce cas-ci, on retiendra plutôt la formule « Spearman » qui explique \(89 \%\) de l’inertie ; l’option « Kendall » nécessite quatre axes pour un même résultat… Les valeurs propres de Spearman sont illustrées par le graphique ci-dessous.

Valeurs propres de Spearman

Extraits des autres informations obtenues par XLSTAT sur l’ACP de Spearman :

Vecteurs proprescercle

Les contributions sont les suivantes :

tableaux

Là encore, vous êtes invité à faire un aller-retour sur la page de résultats d’une ACP sur les variables pour constater la différence.

Enfin, illustrons pour mémoire l'ACP sur les individus. Avec les coefficients de Spearman, le plan principal apparaît ainsi :

Plan factoriel

 

ACP dans le rang