Exemple d'une AFC peu informative
Exemple fictif. Des produits de couleurs différentes sont vendus à l'international. Questions : les clients habitant certains pays se distinguent-ils par une préférence pour certaines couleurs ? Lesquels se ressemblent ou s’opposent sur ce marché ? Quels produits sont proches dans leur capacité à attirer des clientèles semblables ? Peut-on hiérarchiser ces ressemblances et ces différences ?
Données
Pays | bleu | vert | rouge | jaune | blanc | noir | gris | brun | orange |
Belgique | 81 | 41 | 13 | 10 | 20 | 13 | 9 | 11 | 9 |
Canada | 9 | 9 | 30 | 11 | 18 | 22 | 8 | 9 | 9 |
Danemark | 10 | 13 | 9 | 9 | 8 | 12 | 8 | 8 | 8 |
Finlande | 23 | 27 | 33 | 36 | 14 | 37 | 20 | 11 | 24 |
France | 21 | 9 | 15 | 19 | 10 | 27 | 21 | 19 | 8 |
Allemagne | 17 | 13 | 17 | 8 | 8 | 22 | 10 | 9 | 8 |
Grèce | 11 | 28 | 41 | 8 | 8 | 27 | 37 | 24 | 22 |
Irlande | 46 | 42 | 77 | 34 | 48 | 37 | 29 | 40 | 27 |
Italie | 25 | 8 | 14 | 8 | 8 | 19 | 8 | 8 | 8 |
Japon | 14 | 8 | 8 | 8 | 12 | 21 | 8 | 14 | 15 |
Pays-Bas | 17 | 8 | 14 | 15 | 28 | 8 | 8 | 9 | 8 |
Portugal | 8 | 35 | 33 | 14 | 8 | 31 | 7 | 7 | 7 |
Espagne | 7 | 7 | 7 | 8 | 8 | 8 | 8 | 8 | 7 |
Suède | 15 | 8 | 23 | 14 | 12 | 23 | 7 | 26 | 27 |
Roy-Uni | 9 | 12 | 9 | 14 | 15 | 27 | 7 | 14 | 18 |
USA | 7 | 17 | 10 | 11 | 15 | 13 | 8 | 21 | 24 |
Étude
Lançons une AFC sur XLSTAT. Selon le test du khi², il y a bien un lien entre les lignes et les colonnes.
La somme des valeurs propres est égale à l’inertie totale, soit 0,2. Au maximum, elle serait égale à neuf colonnes moins une, soit huit. On en est très loin. Certes, le test du khi² nous dit qu’il n’y a pas indépendance, mais il ne faut pas s’attendre à des trouvailles extraordinaires. L'analyse semble déjà pliée...
Le premier axe factoriel résume \(41\%\) de l’information. Avec deux axes, on n’explique que \(60\%\) de l’inertie. Le peloton des trois axes suivants tient dans un mouchoir. S’il faut cinq axes pour expliquer une variance globalement faible, on perd notre temps…
Une bonne part de l’inertie est expliquée par la Belgique. Par construction, et contrairement à l’ACP, les observations sont pondérées (par leur fréquence marginale). Le poids le plus élevé est celui de l’Irlande, dont la distance par rapport au centre de gravité est faible. C’est un pays « dans la moyenne » qui ne peut expliquer une part importante de l’information. En revanche, la clientèle belge est assez fortement pondérée et présente un profil particulier.
Les coordonnées des clientèles par pays sont indiquées dans le tableau ci-dessous. Elles confirment ce qu’on vient de voir. Signalons au passage qu’on peut se servir des valeurs des premiers axes pour faire une classification (k-means ou CAH).
Suivent, sur XLSTAT, les poids relatifs et les cosinus carrés qui confirment l’analyse.
Les poids les plus élevés concernent les produits rouge, puis noir… (il suffit de faire les sommes sur le tableau de contingence pour s’en apercevoir) et le bleu est très éloigné du centre de gravité. Nous ne reprenons pas ici les tableaux suivants (même principe que pour les clientèles pays) mais certains figurent en page contributions aux axes.
Et voici le nuage de points qui éclaire tout (si l’on peut dire) :
Les ventes de produits bleus en Belgique contribuent pour une bonne part à l’inertie totale (si l’on coche l’option « inertie par case », on voit qu’elles l’expliquent à \(22\,%\). Facile à remarquer sur le tableau de contingence parce qu’il est petit, mais ce serait beaucoup plus difficile avec des dizaines ou des centaines de modalités.
On peut malgré tout observer les distances entre modalités, qu’elles caractérisent la même variable ou non. Nous avons un nuage vertical, façon cumulonimbus ; le deuxième axe peut donc faire découvrir des distances intéressantes mais n’oublions pas que l’inertie globale est très faible. Ni les couleurs de produits ni les clientèles par pays ne se prêtent à une classification très opérationnelle.
Voir un autre exemple, qui n’est quant à lui pas un flop.