Nuages de points et AFC
Lorsque des sociologues ou des marketeurs doivent analyser deux critères nominaux (donc sans notion d’échelle de valeurs) décomposés en nombreuses modalités sur des milliers d’individus, il leur faut un outil performant. Heureusement, cet outil existe et c’est l’analyse factorielle des correspondances (AFC). L’un de ses attraits est qu’elle permet la représentation géométrique des différentes modalités, parfois nommée « mapping », sur laquelle on visualise les similitudes.
Rappels
Rappelons au préalable qu’une AFC décortique les relations entre deux variables nominales repérées sur une population ou un échantillon, contrairement à l’ACP, autre technique factorielle, qui distingue quant à elle des individus et des variables numériques (Cf. pages ACP sur variables et ACP sur individus).
Par conséquent, les lignes et les colonnes d’un tableau de contingence, matériau intermédiaire entre le jeu de données et l’AFC, sont étudiées de façon parfaitement symétrique. Il n’existe pas a priori de variable explicative et de variable expliquée. On utilise les termes de profil-ligne et de profil-colonne mais ceux-ci ont quelque chose d’arbitraire...
Rappelons qu’un profil est indépendant de l’effectif. Un profil-ligne, par exemple, est la façon dont sont réparties les fréquences des différentes modalités placées en colonnes pour telle modalité placée en ligne.
Technique
Soit un tableau de \(n\) lignes et \(p\) colonnes. Les \(n\) points représentatifs des profils-lignes sont situés dans un espace à \(p - 1\) dimensions et, vous l’avez deviné, les \(p\) points correspondants aux \(p\) profils-colonnes évoluent dans un espace à \(n - 1\) dimensions. L’AFC consiste à placer ces profils sur des axes factoriels. Le mapping en est une représentation en plans factoriels.
Chaque repère est centré sur le centre de gravité des profils situés sur l’espace qu’il détermine. C’est l’un des deux types d’information qu’il est possible de tirer d’un nuage de points : un profil moyen est proche du centre du nuage tandis qu’un profil atypique s’en trouve éloigné.
L’autre information est bien sûr apportée par les proximités entre profils (donc entre leur points représentatifs), mesurée par la distance du khi².
Par ailleurs, l’AFC présente une particularité fort intéressante : il n’est pas absurde de représenter les profils-lignes et les profils-colonnes dans un même repère. D’ailleurs, les logiciels ne s’en privent pas. En effet, les inerties « absorbées » par chaque axe sont les mêmes pour les deux nuages de points.
Habituellement, les nuages sont représentés dans des plans factoriels (voir la représentation typique en page d'exemple d’une AFC peu informative, réalisée avec XLSTAT). Ci-dessous figure un premier plan factoriel réalisé avec Tanagra. Ce logiciel adapte bien la fenêtre à la configuration du nuage qui apparaît bien éclaté. Cependant, les axes sont un peu noyés dans la grille qui figure en pointillés.
Les données représentées ici sont celles de l'exemple d’AFC. Il s’agit de types de bois (étiquettes bleues, où \(R\) signifie « résineux » et \(F\) signifie « feuillus ») et de pays producteurs. Les proximités apparaissent clairement entre les résineux et les pays montagneux ou d’Europe du nord.
Ces mêmes données peuvent être illustrées dans un espace factoriel à trois dimensions qui réclame une certaine habitude de lecture. Ainsi, Miner3D autorise une visualisation spatiale :
Quelques figures
Il arrive qu’un nuage de points apparaisse sous une forme particulière.
Si tous les points sont agglutinés au centre du repère, il y a indépendance entre les modalités. En revanche, s’ils sont très dispersés, on a de bonnes chances d’en déduire des similitudes.
Les formes allongées permettent souvent de détecter des liaisons mais si elles sont trop bien structurées, c’est louche ! Les modalités ont peut avoir été mal choisies. Par exemple, si deux ou trois sous-nuages apparaissent bien formés au sein d’un vide cosmique, c’est que le tableau de contingence peut ressembler à une diagonale de sous-matrices avec des zéros partout ailleurs. Le lien était peut-être trop évident pour mériter une AFC !
Une version plus continue du nuage le fait ressembler à une banane ou à une parabole. Il s’agit de l’effet Guttman, bien connu des data analysts. Dans cette situation, soit il existe un facteur beaucoup plus important que les autres, soit on se trouve dans le cas précédent mais avec de nombreuses sous-matrices. Cet effet s’observe notamment lorsqu’une variable quantitative ou ordinale a été découpée en classes. L’AFC n’était alors pas le meilleur choix d’analyse !