Un exemple d'ACM

Exemple d'analyse des correspondances multiples

Cette page illustre à l'aide d'un exemple fictif une analyse des correspondances multiples (ACM).

 

Données

Soit un tableau disjonctif complet sur des réponses à un questionnaire (26 enquêtés, quatre questions posées sur un produit) :

Données

 

Analyse

Les restitutions ci-dessous sont celles de XLSTAT. Pour mémoire, le premier état est reproduit en page tableau de Burt.

L’inertie totale est égale au nombre moyen de modalités moins une, soit 1,5. Le nombre de valeurs propres non triviales à se « partager » ce montant est de dix modalités moins quatre variables, soit six. Leur moyenne est de 0,25. Deux valeurs se situent au-dessus.

Valeurs propres

XLSTAT « ajuste » les inerties pour les ramener d’une mesure pessimiste (due à la présentation disjonctive) à une mesure exploitable. On voit alors que l’essentiel de l’information est contenu dans le premier axe.

Nous ne restituons pas ici les graphiques et coordonnées des variables (voir toutefois en fin de page le paragraphe sur la vérification par CAH). Les poids des modalités contenues dans les axes sont les suivants :

Poids

On remarque que le premier axe contient l’essentiel de l’information apportée par les différentes modalités, sauf par \(Q1_1,\) \(Q4_1\) et \(Q4_2\) qui expliquent une bonne part du deuxième axe.

Les cosinus carrés nous renseignent sur la qualité de la représentation :

Cos²

Ce tableau confirme le précédent, sauf peut-être pour \(Q4_2\) (il faudrait observer la contribution de cette modalité au troisième axe). Passons les tableaux sur les observations pour arriver directement au plan factoriel :

Plan factoriel

On relève quelques similarités entre modalités, par exemple \(Q2_2\) et \(Q3_2.\) On distingue trois groupes, dans lesquels telle modalité de telle variable va plutôt de pair avec telle autre modalité de telle autre variable. Les enquêtés se répartissent plus ou moins bien en fonction de ces trois profils.

Il serait bien sûr possible d’ajouter des modalités de variables illustratives, par exemple des données signalétiques sur les enquêtés.

On peut vérifier qu’il existe trois profils-types sur les réponses au questionnaire en faisant une classification ascendante hiérarchique (CAH) sur les variables. Celle-ci est réalisée avec un paramétrage standard (distance euclidienne, méthode de Ward, troncature automatique). Les données entrées sont les coordonnées sur les six axes, non centrées-réduites, et les colonnes sont pondérées par les pourcentages d’inertie (voir plus haut).

En résumé :

CAH

CAH

Dendrogramme

Ce dendrogramme à fière allure nous confirme qu’il fallait bien distinguer trois classes…

 

nuage de points