Analyse en Composantes Principales sur variables
Une supposition : vous avez l'insigne honneur de manipuler une base de données de forte volumétrie et vous souhaitez en tirer des informations pertinentes. Non, pas sous forme d’un banal tableau avec des pourcentages agrémenté d’un histogramme et d'une moyenne, mais d’une analyse multidimensionnelle, de détection de liaisons qui permettent de segmenter une clientèle afin d’adapter les variables de votre marketing mix, de booster votre knowledge management, bref, de passer à la vitesse supérieure.
L’ACP sur les variables constitue à cet égard un outil puissant, dès lors que les variables disponibles sont numériques.
Des variables composites
Davantage usitée que l'ACP sur les individus et souvent restituée à sa suite par les logiciels, l’ACP sur les variables permet de remplacer les caractéristiques relevées sur une population par d’autres, parfaitement décorrélés entre elles. Ces nouvelles variables, nommées composantes principales, apparaissent triées de la plus significative à la plus insignifiante, ce qui permet de n'en retenir qu'un petit nombre. Le hic, c’est qu'elles ne mesurent pas quelque chose de prédéfini et l’analyste doit leur trouver une signification. C'est le principe d'une analyse factorielle.
Aspects techniques
La plupart du temps, chaque variable est prise en compte pour le même poids (contrairement aux unités statistiques ou individus qui peuvent être pondérés différemment). Par ailleurs, il est malvenu de mélanger des variables explicatives avec d'autres qui en sont les conséquences (à moins de les intégrer comme variables illustratives). À titre d'exemple, une ACP peut porter sur les caractéristiques d'une clientèle mais les intentions d'achat ne se situent pas à un même niveau. Les réponses à une enquête peuvent alors constituer des variables illustratives.
Quel que soit le logiciel, les variables sont par défaut centrées (on retire la moyenne de la variable pour chaque observation). Généralement, elles sont aussi réduites (division par l'écart-type). Alors que le centrage est neutre pour l'analyse, la réduction ne l'est pas. Son avantage est d'assurer une comparaison entre variables mesurées dans des unités très différentes. Mais cette opération donne une importance identique à chaque variable. Selon la problématique de l'analyse, ce peut être un bien ou un mal. En effet, si toutes les variables sont mesurées dans la même unité, il peut être préférable de conserver leurs variances respectives. On parle alors d'ACP non normée.
Avec les composantes principales, il est rapide de détecter les éventuelles liaisons qui existent entre les variables de départ.
Intuitivement, il est un peu plus difficile de percevoir ce que peut être un nuage de points-variables qu'un nuage de points-individus dans un espace vectoriel dont les axes indiquent des variables. Si l’on prend l’exemple d’un million d'individus décrits par vingt variables quantitatives, ces dernières se situent dans un espace à un million de dimensions…
Pas de panique. L’ACP consistant en une réduction de dimensionnalité, le data analyst peut généralement visualiser l’essentiel de l’espace des variables sur un, deux, voire trois plans comme nous allons le voir.
Graphiquement, les points sont projetés sur des axes normés sur lesquels sont lues les nouvelles coordonnées. Pris deux à deux, ceux-ci définissent des plans. L'espace vectoriel des variables est un dual de celui des individus.
Les points qui représentent graphiquement les variables apparaissent dans une hyper sphère de rayon = 1, c'est-à-dire qu’il devrait suffire d’examiner quelques points « encerclés » pour visualiser les proximités et les éloignements entre variables. Evidemment, la visualisation n’a d’intérêt que si les variables sont nombreuses : si vous n’en avez que trois à analyser, la matrice des corrélations fait aussi bien l’affaire !
Pourquoi les variables se situent-elles dans une hyper sphère de rayon 1 ? Parce qu’elles sont standardisées et que la norme d’une variable, c’est-à-dire sa « longueur », est égale à son écart-type. Or, elles « rayonnent » à une distance d’un écart-type de l’ORIGINE (et non du centre de gravité du nuage comme c’est le cas avec l’ACP sur individus) et elles sont réduites (voir page boules et voisinage). Dans un plan, les variables se trouvent donc à l’intérieur d’un disque.
Par ailleurs, si vous percevez bien le lien qui existe entre mesures de dispersion et espace vectoriel, vous avez deviné que le produit scalaire de deux variables est égal à leur covariance (nous travaillons toujours sur des variables centrées et réduites). De plus, nous connaissons depuis le lycée la formule du cosinus : \(\overrightarrow u .\overrightarrow v\) \(= \| {\overrightarrow u } \| \times \| {\overrightarrow v } \| \times \cos ( {\overrightarrow u ,\overrightarrow v } ).\)
Si les deux normes sont égales à 1, le produit scalaire est égal au cosinus. Et si les écarts-types de deux variables sont égaux à un, alors le coefficient de corrélation entre ces deux variables est égal à leur covariance. Donc, l’angle qui existe entre deux variables (mesuré par le cosinus) est égal à leur coefficient de corrélation ! CQFD. Si l'explication vous semble trop rapide, rendez-vous en page cercle des corrélations.
Le but de l’ACP est alors de définir l’axe qui maximise la somme des carrés des projections, donc des cosinus carrés, donc des coefficients de détermination entre variables. Puis un deuxième axe factoriel orthogonal au premier passant par le centre de gravité. Et ainsi de suite.
Petite précision : si le coefficient de corrélation utilisé est celui de Pearson, il existe aussi des coefficients de corrélation des rangs (Spearman ou Kendall) sur lesquels peuvent s’appuyer l’ACP. L'ACP des rangs n’est pas très utilisée malgré de gros avantages.
Procédure
Après la préparation des données, vous lancez une ACP. Il est d'ailleurs probable que de premiers résultats vous conduisent à nettoyer à nouveau les données.Votre logiciel favori vous fournit d'abord les éléments qui vous permettront de déterminer combien d’axes retenir. Pour cela, vous bénéficiez d’une liste triée décroissante de leurs valeurs propres, du pourcentage de la variance totale expliqué par chaque axe et du pourcentage cumulé, le tout accompagné d’un petit graphique des valeurs propres. Les logiciels les plus obligeants vous fournissent la matrice des corrélations.
Pour retenir le nombre optimal de composantes principales, vous utilisez soit la méthode « barbare » qui consiste à ne retenir que les valeurs propres supérieures à 1 (pour faire plus sérieux, on dit « critère de Kaiser »), soit vos propres méthodes qui tiendront compte de la problématique métier, de la quantité d’inertie sur laquelle vous acceptez de faire l’impasse ou d’une éventuelle inflexion visible sur le graphique. Selon les cas, il s’agit d’une procédure simple ou d’un dilemme cauchemardesque.
Ensuite, votre logiciel bien-aimé vous fournit les moyens d’interpréter les axes retenus. Chaque composante principale peut être décrite comme une équation où interviennent toutes les variables affectées de coefficients (les facteurs). Dans la mesure où celles-ci sont centrées et réduites, leurs poids sont comparables. Voir l'exemple en page résultat d'une ACP sur les variables.
Tant que le nombre d’unités statistiques n’est pas faramineux, vous les visualisez sur les plans principaux. Vous voyez également les variables mais pas sur le même graphique. La métrique étant différente, il faut éviter de placer individus et variables sur le même graphe, même si votre logiciel vous restitue un « biplot ». Vous perdez déjà des informations en n’expliquant qu’une partie de la variance totale, ne faussez pas celles que vous analysez en commettant des erreurs d’amateurs !
Les cercles des corrélations permettent d’apprécier visuellement les angles qui existent entre les variables (on a d’ailleurs l’habitude de représenter les vecteurs sous forme de flèches plutôt que de points). Si deux points sont sur une même droite, il n’y a pas d’angle et la corrélation est parfaite. Autrement dit, cos 0 = 1. Mais ces comparaisons ne valent que si les points sont proches du cercle.