Techniques et concepts de l'entreprise, de la finance et de l'économie 
(et fondements mathématiques)

L'ACP des rangs

logo

 

 

 

 

 

 

 

 

 

 

Analyse en Composantes Principales sur les rangs

Les résultats d’une analyse en composantes principales (ACP) peuvent être faussés par d'incongrus outliers. Un moyen d’obtenir une analyse plus robuste est d’utiliser les rangs plutôt que les valeurs des variables. Exemple théorique : quatre individus prennent les valeurs (triées) 2, 5, 7 et 100. Le dernier présente une valeur aberrante. Les corrélations se feront sur leur rang : 1, 2, 3 et 4. Ainsi, la valeur prise par le quatrième devient 4 au lieu de 100, ce qui n’écrase pas les autres observations. Plus généralement, des distributions qui s'éloignent de la normalité invitent à utiliser cette technique.

Une autre raison vous invitera peut-être à vous aventurer sur ces axes factoriels peu fréquentés : des données ordinales.

Il existe deux coefficients de corrélation des rangs, celui de Spearman et celui de Kendall. Donc, au lieu d’utiliser une matrice de corrélation de Pearson, on recourt à celles de Spearman ou de Kendall. Hormis le mode de calcul des coefficients, il n’existe aucune différence avec une ACP paramétrique, ni dans les calculs, ni dans l’interprétation.

Cette page donne les résultats d’une ACP sur les variables. Les données sont celles de la page Résultats d’une ACP sur les variables (source Boursorama. Chiffres 2005 en K€, parfois estimés). D’une manière générale, les données sur les entreprises présentent souvent une dispersion si importante qu’une ACP des rangs se révèle plus efficace que l’ACP habituelle.

Exemple groupes US

Il existe une observation statistiquement aberrante : General Motors (en raison de sa perte colossale). Pour info, la matrice des corrélations de Pearson, obtenue par XLSTAT :

corrélations

Maintenant, appréciez la différence avec les matrices de corrélation des rangs (on peut se demander où est la validité d’une ACP mais je vous rassure, c’est juste parce que l’effectif est faible !). Ci-dessous, Spearman puis Kendall :

Matrice Spearman

Kendall

Ces deux dernières présentent quelques écarts mais sans commune mesure avec la matrice de Pearson. Les valeurs propres sont les suivantes (Spearman puis Kendall) :

Valeurs propres Spearman

Valeurs propres Kendall

Si l’on s’en tient au critère de Kaiser (valeurs propres > 1), les deux techniques suggèrent de ne retenir que trois axes (idem avec Pearson). Dans ce cas-ci, on retiendra plutôt la formule « Spearman » qui explique 89 % de l’inertie ; l’option « Kendall » nécessite quatre axes pour un même résultat… Les valeurs propres de Spearman sont illustrées par le graphique ci-dessous.

Valeurs propres de Spearman

Extraits des autres informations obtenues par XLSTAT sur l’ACP de Spearman :

Vecteurs propres

Les contributions sont les suivantes :

Là encore, vous êtes invité à faire un aller-retour sur la page Résultats d’une ACP sur les variables pour constater la différence.

Enfin, illustrons pour mémoire l'ACP sur les individus. Avec les coefficients de Spearman, le plan principal apparaît ainsi :

Plan factoriel

 

ACP dans le rang

 

© JY Baudot - Droits d'auteur protégés