Un exemple d'AFC

Exemple d'une AFC peu informative

Exemple fictif. Des produits de couleurs différentes sont vendus à l'international. Questions : les clients habitant certains pays se distinguent-ils par une préférence pour certaines couleurs ? Lesquels se ressemblent ou s’opposent sur ce marché ? Quels produits sont proches dans leur capacité à attirer des clientèles semblables ? Peut-on hiérarchiser ces ressemblances et ces différences ?

 

Données

Pays bleu vert rouge jaune blanc noir gris brun orange
Belgique 81 41 13 10 20 13 9 11 9
Canada 9 9 30 11 18 22 8 9 9
Danemark 10 13 9 9 8 12 8 8 8
Finlande 23 27 33 36 14 37 20 11 24
France 21 9 15 19 10 27 21 19 8
Allemagne 17 13 17 8 8 22 10 9 8
Grèce 11 28 41 8 8 27 37 24 22
Irlande 46 42 77 34 48 37 29 40 27
Italie 25 8 14 8 8 19 8 8 8
Japon 14 8 8 8 12 21 8 14 15
Pays-Bas 17 8 14 15 28 8 8 9 8
Portugal 8 35 33 14 8 31 7 7 7
Espagne 7 7 7 8 8 8 8 8 7
Suède 15 8 23 14 12 23 7 26 27
Roy-Uni 9 12 9 14 15 27 7 14 18
USA 7 17 10 11 15 13 8 21 24

 

Étude

Lançons une AFC sur XLSTAT. Selon le test du khi², il y a bien un lien entre les lignes et les colonnes.

khi² et valeurs propres

La somme des valeurs propres est égale à l’inertie totale, soit 0,2. Au maximum, elle serait égale à neuf colonnes moins une, soit huit. On en est très loin. Certes, le test du khi² nous dit qu’il n’y a pas indépendance, mais il ne faut pas s’attendre à des trouvailles extraordinaires. L'analyse semble déjà pliée...

Le premier axe factoriel résume \(41\%\) de l’information. Avec deux axes, on n’explique que \(60\%\) de l’inertie. Le peloton des trois axes suivants tient dans un mouchoir. S’il faut cinq axes pour expliquer une variance globalement faible, on perd notre temps…

scree plot

Distances

Une bonne part de l’inertie est expliquée par la Belgique. Par construction, et contrairement à l’ACP, les observations sont pondérées (par leur fréquence marginale). Le poids le plus élevé est celui de l’Irlande, dont la distance par rapport au centre de gravité est faible. C’est un pays « dans la moyenne » qui ne peut expliquer une part importante de l’information. En revanche, la clientèle belge est assez fortement pondérée et présente un profil particulier.

Les coordonnées des clientèles par pays sont indiquées dans le tableau ci-dessous. Elles confirment ce qu’on vient de voir. Signalons au passage qu’on peut se servir des valeurs des premiers axes pour faire une classification (k-means ou CAH).

Coordonnées stds

Suivent, sur XLSTAT, les poids relatifs et les cosinus carrés qui confirment l’analyse.

Poids

Les poids les plus élevés concernent les produits rouge, puis noir… (il suffit de faire les sommes sur le tableau de contingence pour s’en apercevoir) et le bleu est très éloigné du centre de gravité. Nous ne reprenons pas ici les tableaux suivants (même principe que pour les clientèles pays) mais certains figurent en page contributions aux axes.

Et voici le nuage de points qui éclaire tout (si l’on peut dire) :

Plan factoriel

Les ventes de produits bleus en Belgique contribuent pour une bonne part à l’inertie totale (si l’on coche l’option « inertie par case », on voit qu’elles l’expliquent à \(22\,%\). Facile à remarquer sur le tableau de contingence parce qu’il est petit, mais ce serait beaucoup plus difficile avec des dizaines ou des centaines de modalités.

On peut malgré tout observer les distances entre modalités, qu’elles caractérisent la même variable ou non. Nous avons un nuage vertical, façon cumulonimbus ; le deuxième axe peut donc faire découvrir des distances intéressantes mais n’oublions pas que l’inertie globale est très faible. Ni les couleurs de produits ni les clientèles par pays ne se prêtent à une classification très opérationnelle.

Voir un autre exemple, qui n’est quant à lui pas un flop.

 

compositeurs