Analyse factorielle des correspondances

Analyse Factorielle des Correspondances

L'histoire des mathématiques et celle des connaissances humaines ont évolué en parallèle au fil du temps. À chaque étape de l'histoire de l'humanité, les progrès scientifiques et technologiques auraient été impossibles sans l'avancée préalable des données mathématiques sur lesquelles ils étaient fondés.

La mystification des sens

À cet égard, la technique de l'AFC a été particulièrement utile à l'évolution des sciences humaines.

Nouvelle mission d'espionnage d'un jeu de données : détecter les liaisons qui existent entre deux variables qualitatives.

L'AFC

Comme son nom l’indique, l’AFC est une analyse factorielle. Le terme « correspondances » signifie que sont étudiées les liaisons entre deux variables nominales, par opposition à la corrélation qui s’intéresse aux liens entre variables numériques. Les deux buts principaux d'une analyse factorielle sont d'une part de détecter des PROXIMITÉS et d'autre part de faire apparaître quelques variables synthétiques abstraites décorrélées entre elles (réduction de dimensionnalité). Ce second attrait ne constitue toutefois pas le but majeur de l'AFC...

On dispose d’un effectif important caractérisé par deux variables, éventuellement trois si les croisements de deux d’entre elles peuvent être considérés comme nouvelles variables (voir l'exemple d'AFC avec logiciels). Il est possible de croiser plus de variables mais il faut alors utiliser alors la procédure de l’ACM (analyse des correspondances multiples) et non l'AFC.

Ces observations sont synthétisées dans un tableau de contingence. Dans chaque case figure le nombre d'unités statistiques qui présentent telle modalité d'une première variable placée en ligne et telle modalité d'une autre variable présentée en colonne. Si les variables sont numériques, elles doivent être découpées en classes.

Quand il y a peu de modalités, un simple coup d'œil suffit pour estimer s'il y a liaison et une brève présentation de pourcentages fait l'affaire. Afin d'évaluer de façon plus sérieuse si globalement il existe des liens, il faut procéder à un test d’indépendance du khi².

En revanche, lorsque les modalités sont très nombreuses (types d’articles en magasin, points de vente d’une grande enseigne, tranches de dix minutes dans la journée…), une montée en puissance s’avère nécessaire. C’est ainsi que l’on passe des statistiques descriptives à l'analyse des données, comme on passe de la vrille à la perceuse…

Que faire de toutes ces données ? Les passez aux rayons X pour découvrir l’invisible, c’est-à-dire les liens qui existent dans une pléthore de modalités… Supposons que les deux variables soient des produits alimentaires et des points de vente franchisés : peut-être découvrirez-vous que les magasins en zone rurale sont davantage associés aux consommations de pâté, que les fromages à pâte molle sont moins appréciés en Bretagne, que telle région est plutôt bière et telle autre plutôt vin, etc. Et vous adapterez l’effort publicitaire en évitant les dépenses inutiles. Toutes ces informations en une seule étude !

Evidemment, et contrairement à l’ACP, on ne peut pas visualiser le nuage représentatif des individus à l’aide d’un système de coordonnées cartésiennes puisque la population est définie par des critères nominaux. Mais comme toute analyse factorielle qui se respecte, l’analyse des correspondances permet de visualiser des liaisons sur un ou deux plans factoriels car on va définir une métrique…

Comment ça se passe ?

Il existe différentes façons d’expliquer le mécanisme de l’AFC et plusieurs algorithmes sont possibles (à partir des données brutes, des centrées réduites, des fréquences…). Rassurez-vous, c’est votre logiciel qui s’occupe de tout.

D’abord, le tableau des effectifs observés est comparé à un tableau des effectifs théoriques dans lequel il n’y aurait aucun lien entre telle modalité de la variable \(x\) et telle modalité de la variable \(y,\) comme pour le test du \(\chi ^2.\) Ce tableau d’effectifs théoriques est construit à partir des fréquences marginales.

Ces deux tableaux, réel et théorique, vont bénéficier des joies du calcul matriciel, ainsi que le tableau qui en montre les différences (soustraction réelle – théorique). C’est bien sûr cette troisième matrice que l’on va explorer en la décomposant en une somme de \(n\) matrices (\(n\) étant le nombre de colonnes moins 1. S’il y a plus de colonnes que de lignes, \(n\) est alors le nombre de lignes moins 1). Ces nouvelles décompositions sont réalisées de la même façon que la première. Les tableaux obtenus les uns à partir des autres expliquent ainsi de moins en moins d’inertie, comme une orange qui donne moins de jus à chaque tour de presse-agrume.

A chacune de ces matrices est associé un vecteur propre.

Aux vecteurs propres qui déterminent les directions des axes factoriels sont associées des valeurs propres qui indiquent dans quelle mesure chaque axe explique une part de l’inertie totale (égale à la somme de ces valeurs propres). La métrique utilisée pour mesurer les éloignements ou proximités entre modalités est la distance du \(\chi^2\) (pour être plus précis du phi², c’est-à-dire \(\frac{\chi^2}{n}.\)

A chaque tableau résiduel (obtenu après un tour de presse-agrume) est associé un test d’indépendance du \(\chi^2\) et le \(\varphi^2\) obtenu est égal à la valeur propre.

presse-agrumes

L’interprétation

Chaque axe factoriel supporte une part de l’inertie totale. Cette part est mesurée par les valeurs propres, inférieures ou égales à 1. Des valeurs proches de 1 indiquent d’intéressants liens entre modalités de variables différentes. Donc, la seule valeur propre du premier axe donne une bonne indication sur l’intérêt de l’étude…

Après la qualité globale de l’AFC, l’explication fournie par chaque axe. En d’autres termes, après la taille du nuage, voyons sa forme. Votre logiciel vous donne le pourcentage d’inertie expliqué par les axes factoriels. Vous en retenez un certain nombre en fonction des pourcentages cumulés et de leur courbe représentative qui peut montrer une inflexion.

On observe ensuite les contributions.

Puis on visualise les proximités et éloignements de modalités sur les plans factoriels. L’origine est le centre de gravité, aussi bien des lignes que des colonnes et, même si les échelles des deux variables sont différentes, on peut rapprocher facilement les modalités qui peuvent l’être (inter ou intra variables).

Cela étant, s’il n’existe pas de structure dans vos données, l’AFC ne l’inventera pas ! (voir Résultats d’une AFC peu informative).

Enfin, vous rédigez un beau rapport.

liaison