Résultats d'une ACP sur les individus

Interprétation d'une ACP sur observations

Si vous vous êtes égaré sur cette page, voici où vous vous situez : vous disposez d’une base de données comprenant un certain nombre d'observations d'unités statistiques. Peut-être dix, comme ci-dessous, ou peut-être des millions... Chaque unité est caractérisée par des variables qui prennent des valeurs numériques. Certaines sont peut-être exprimées en euros, d’autres en pourcentages, d’autres en tonnes, d’autres en Q.I, etc. Vous souhaitez synthétiser et structurer tout ceci par une analyse factorielle. Dans quel but ? Ce peut être une simple étape d'une analyse statistique : peut-être identifier des valeurs extrêmes, ou encore connaître les coordonnées de votre population sur des axes principaux pour les utiliser comme variables d’une régression multiple, ou alors identifier des sous-populations pour choisir le nombre de classes d’une k-means… Le but peut aussi être plus immédiat car les résultats d'une ACP sont souvent directement exploitables (étude de marché...). Peut-être même souhaitez-vous faire ceci pour le plaisir… (mais si, mais si).

 

L'ACP sur individus

Alors c’est décidé, vous vous lancez dans une ACP sur individus. Et là, votre fidèle compagnon (c'est-à-dire votre logiciel) vous restitue généreusement tableaux et graphiques. Comment les interpréter ? À partir d'un exemple, cette page vous donne quelques éléments de réponse.

Les résultats présentés ici sont obtenus avec XLSTAT (logiciel de statistique pour Excel). Ils sont restitués sur la même page que ceux de l'ACP sur variables.

L’objectif de ce site n’étant pas de présenter des études réelles, un modeste échantillon de dix observations suffira à la démonstration.

analyste

 

Données

Le tableau ci-dessous donne quelques informations sur dix grands groupes américains en 2005 (source Boursorama, certains chiffres indisponibles sont estimés). Le choix des variables a surtout été guidé par leur disponibilité.

données

drapeau US

 

Analyse

Les sorties de l’ACP sont les suivantes (extraits) :

Coordonnées des observations

Les six variables ont été linéairement combinées sur six axes (\(F_1\) à \(F_6\)) qui matérialisent autant de nouvelles variables synthétiques. Les coordonnées des observations sur chaque axe, reprises dans ce tableau, donnent une idée de l'importance de chacune d'elles à sa construction. On devine déjà quel rôle tient la General Motors dans la construction du premier axe…

Graphique en 3D

Contributions absolues :

Contributions absolues

Et voila comment un outlier peut fausser une analyse ! On interprète l’axe 1 comme résumant des critères de rentabilité, l’axe 2 des critères d’activité et l’axe 3 des critères de taille. Mais l’axe 1, le plus significatif, est expliqué pour les deux tiers par General Motors ! Le deuxième axe isole quant à lui les deux groupes qui présentent des chiffres d’affaires particulièrement astronomiques (ici en milliers d’euros).

En fonction de la problématique de l’étude, il faudrait soit imputer les pertes de la GM, soit considérer GM comme un individu illustratif, soit procéder à une ACP des rangs. Mais rappelons qu’une ACP sur dix observations seulement relève d’une présentation « pédagogique » davantage que d’une application opérationnelle.

Une petite précision toutefois. Il existe souvent des différences très marquées entre les entreprises. Il est plus rare de constater de tel écarts entre des personnes physiques. Or, si l'ACP sur variables s'appuie souvent sur une normalisation (pour ne pas donner plus d'importance à certaines variables plutôt qu'à d'autres), il n'en est pas de même pour l'ACP sur individus qui se trouve un peu désarmée face à une population trop hétérogène. Le type de mésaventure que nous venons de connaître est donc plus rare lorsque l'on analyse, par exemple, des consommateurs en tant que personnes physiques.

 

points