Techniques et concepts de l'entreprise, de la finance et de l'économie 
(et fondements mathématiques)

Un exemple d'AFC

logo

 

 

 

 

 

 

 

 

 

 

Exemple d'une AFC peu informative

Exemple fictif. Des produits de couleurs différentes sont vendus à l'international. Questions : les clients de certains pays se distinguent-ils par une préférence pour certaines couleurs ? Lesquels se ressemblent ou s’opposent sur ce marché ? Quels produits sont proches dans leur capacité à attirer des clientèles semblables ? Peut-on hiérarchiser ces ressemblances et ces différences ?

données

Lançons une AFC sur XLSTAT. Selon le test du khi², il y a bien un lien entre les lignes et les colonnes.

khi² et valeurs propres

La somme des valeurs propres est égale à l’inertie totale, soit 0,2. Au maximum, elle serait égale à neuf colonnes moins une, soit huit. On en est très loin. Certes, le test du khi² nous dit qu’il n’y a pas indépendance, mais il ne faut pas s’attendre à des trouvailles extraordinaires. L'analyse semble déjà pliée...

Le premier axe factoriel résume 41 % de l’information. Avec deux axes, on n’explique que 60 % de l’inertie. Le peloton des trois axes suivants tient dans un mouchoir. S’il faut cinq axes pour expliquer une variance globalement faible, on perd notre temps…

Histogramme
Distances

Une bonne part de l’inertie est expliquée par la Belgique. Par construction, et contrairement à l’ACP, les observations sont pondérées (par leur fréquence marginale). Le poids le plus élevé est celui de l’Irlande, dont la distance par rapport au centre de gravité est faible. C’est un pays « dans la moyenne » qui ne peut expliquer une part importante de l’information. En revanche, la clientèle belge est assez fortement pondérée et présente un profil particulier.

Les coordonnées des clientèles par pays sont indiquées dans le tableau ci-dessous. Elles confirment ce qu’on vient de voir. Signalons au passage qu’on peut se servir des valeurs des premiers axes pour faire une classification (k-means ou CAH).

Coordonnées stds

Suivent, sur XLSTAT, les poids relatifs et les cosinus carrés qui confirment l’analyse.

Poids

Les poids les plus élevés concernent les produits rouge, puis noir… (il suffit de faire les sommes sur le tableau de contingence pour s’en apercevoir) et le bleu est très éloigné du centre de gravité. Je ne reprends pas ici les tableaux suivants (même principe que pour les clientèles pays) mais certains figurent en page contributions aux axes.

Et voici le nuage de points qui éclaire tout (si l’on peut dire) :

Plan factoriel

Les ventes de produits bleus en Belgique contribuent pour une bonne part à l’inertie totale (si l’on coche l’option « inertie par case », on voit qu’elles l’expliquent à 22 %). Facile à remarquer sur le tableau de contingence parce qu’il est petit, mais ce serait beaucoup plus difficile avec des dizaines ou des centaines de modalités.

On peut malgré tout observer les distances entre modalités, qu’elles caractérisent la même variable ou non. Nous avons un nuage vertical, façon cumulonimbus ; le deuxième axe peut donc faire découvrir des distances intéressantes mais n’oublions pas que l’inertie globale est très faible. Ni les couleurs de produits ni les clientèles par pays ne se prêtent à une classification très opérationnelle.

Voir un autre exemple, qui n’est quant à lui pas un flop.

 

compositeurs

 

© JY Baudot - Droits d'auteur protégés