Analyse en Composantes Principales sur observations
A première vue, une base de données est aussi triste qu’une mine. Or, c’est bien dans les mines que l’on trouve les gemmes et toute entreprise qui conserve des données sur support numérique possède sans toujours le savoir son propre filon diamantifère. Avec cet avantage inouï que l'entreprise fabrique ses propres diamants (enfin, ses informations). L’alchimiste est le data miner qui transforme des gigaoctets en aide à la décision grâce à des recettes élaborées dans l’antre de quelques chercheurs…
L'ACP
L’analyse en composantes principales (ACP) sur unités statistiques, ou sur individus, est l’une de ses recettes. On l’utilise pour mener des investigations au sein d'une population décrite par des variables quantitatives, parfois en grande quantité. En entreprise, cette technique répond essentiellement à des problématiques de marketing. L'objectif est de déceler des ressemblances et de savoir quels critères pourraient expliquer les différences.
Si un échantillon de \(n\) individus statistiques est décrite par deux variables numériques, par exemple un revenu et un montant d’épargne, il est facile de la représenter par un nuage de \(n\) points-individus dans un espace vectoriel à deux dimensions et n’importe quel cerveau normalement constitué capte immédiatement s’il existe un lien entre les deux variables, selon que le nuage a une forme définie ou qu’il ressemble à une tempête de neige. Mais si l'on ajoute d’autres variables quantitatives, par exemple un montant de loyer ou un remboursement d’emprunt immobilier, plus une date de naissance convertie en âge, plus on ne sait quoi, il devient impossible de distinguer des sous-groupes parmi nos \(n\) individus.
On pourrait alors se contenter de standardiser les variables (on enlève la moyenne puis on divise par l'écart-type) afin de disposer de critères comparables puis de présenter le nuage de points dans tous les plans construits avec les axes représentatifs des variables. Si la standardisation est une bonne idée, la suite est hélas foireuse... Il peut y avoir énormément de plans à construire, la plupart étant probablement inutiles car ne permettant pas de déceler grand chose.
Des axes composites
Et l’ACP sur individus dans tout ça ?
L’ACP permet de visualiser ce nuage de points non pas sur tous les axes représentant les variables standardisées de départ mais, et c’est là son principal intérêt, sur de nouveaux axes (sous-espaces vectoriels). Graphiquement, ceux-ci sont représentés deux à deux pour que les proximités entre points-individus soient visibles dans des plans mais il y en a beaucoup moins que dans notre idée de départ. Pourquoi ?
La direction du premier axe épouse le plus fort allongement du nuage. En d'autres termes, il est placé de façon à absorber un maximum d'inertie. Un second axe orthogonal au premier absorbe le maximum d'inertie restante et ainsi de suite. Supposons que les individus soient définis par trois variables, c'est-à-dire que le nuage se trouve dans un espace à trois dimensions. Supposons aussi qu'il prenne la forme d'un cylindre aplati. Le premier axe traverse ce volume ainsi :
Il reste alors à expliquer la dispersion de points regroupés en ellipse (donc en deux dimensions). Un premier axe la traverse dans son sens le plus allongé (ci-dessous en rouge). Il subsiste une seule dimension : celle de l'axe jaune ci-dessous.
Ces axes n'ont aucune raison d'être les mêmes que ceux qui ont servi initialement à positionner les points-individus. Il y en a autant que dans le repère initial mais triés par ordre décroissant d'importance dans leur rôle à épouser la forme du nuage. Le data analyst peut alors n'élire qu'un petit nombre d'axes, par exemple les trois premiers, et faire l'impasse sur les suivants.
Différences avec l'ACP sur variables
L’origine se situe sur le centre de gravité et non sur l’origine de l’espace initial (contrairement à l'ACP sur les variables). De plus, les coordonnées des individus ne sont pas standardisées. Il n'y a donc aucune raison de présenter les plans factoriels dans des cercles de corrélations comme on le fait dans le cadre d'une ACP sur variables. Par ailleurs, précisons que les individus sont généralement pondérés de façon identique mais une ACP peut tout à fait prendre en compte des unités statistiques dont les poids diffèrent. À titre d'exemple, si ce sont des régions, il peut être judicieux de les pondérer par leur population (à voir selon la problématique de l'étude). Une pondération nulle revient à considérer un ou plusieurs individus illustratifs.
Réduction de dimensionnalité
Un principe des analyses factorielles est que les axes peuvent être triés par ordre décroissant d'absorption de l'inertie globale. On a donc avantage à ne s'intéresser qu'aux premiers qui sont les plus explicatifs de la dispersion du nuage de points-individus. Les avantages de la réduction de dimensionnalité sont que d’une part les composantes principales sont parfaitement indépendantes les unes des autres (ce qui n'arrive jamais avec les variables de départ) puisque les axes sont tous orthogonaux entre eux et que d’autre part la proportion « d’information » contenue dans chacune d’elles est connue. Par conséquent, on peut éliminer toutes celles qui n’expliquent pas grand-chose. En général, on en retient deux, trois voire quatre (il existe des techniques pour retenir le meilleur nombre d’axes factoriels. Voir les exemples).
Au-delà de l'intérêt graphique, l'ACP fournit bien sûr des informations chiffrées sur la significativité des axes factoriels. D'ailleurs, lorsque les effectifs étudiés sont trop importants pour être visualisés graphiquement, il sera tout de même possible d’interpréter ces nouvelles dimensions abstraites. Cette étape n'a rien de technique. Elle ne nécessite que la brillante intelligence de l'analyste.
Techniques combinées
Du moment que l’on trouve une signification à un axe et que l’on dispose des composantes principales, ces coordonnées peuvent intégrer un jeu de données en tant que variable synthétiquement qualifiante sur un sujet particulier (exemple : si \(\rm{F}1 > 0,8,\) alors ce client est très intéressé par les produits d’épargne). Ces coordonnées peuvent aussi devenir les variables explicatives d’une régression multiple.
En outre, l’ACP sur individus peut constituer l’étape préalable à une classification en permettant de détecter les outliers d’un jeu de données et de les retirer.
Elle peut aussi entériner les résultats de la classification : on retient alors un échantillon test (une quantité visualisable, bien-sûr, pas des millions de clients !) incluant la variable « classe » à valider, celle-ci servant seulement à colorer les points du nuage en fonction de leur classe. On examine ensuite le nuage sous ses différents angles, c'est-à-dire en fonction des premiers plans principaux, et l'on s’assure que les couleurs sont bien séparées.
Généralement, les logiciels intègrent dans un même état de sortie l’analyse sur les individus et l’analyse sur les variables. Pour une interprétation, voir les résultats d’une ACP sur les individus.
Note : nous avons évoqué ici la technique de l'ACP normée. Il est également possible de procéder à une ACP non normée pour laquelle les variables ne sont pas standardisées. Cette technique est plus rarement utilisée car elle exige des contraintes sur les données.