Comparaison de méthodes d'agrégation de CAH
La classification ascendante hiérarchique (CAH) est une technique de classification qui agrège des observations, des plus semblables aux plus dissemblables. Il existe plusieurs méthodes d’agrégation qui permettent de regrouper les classes. Sur cette page, nous vous proposons d’en comparer quelques unes en gardant à l’esprit que les conclusions ne vaudront que sur l’exemple choisi et que toute généralisation serait abusive.
Données
Cet exemple se situe hélas en-dehors du milieu de l’entreprise mais les données ont le mérite d’être réelles (restons prudent et n’employons pas le terme « exactes »...). Il s’agit d’agrégats macroéconomiques 2006 (source Nations-Unies) :
Étude
Dans la mesure où l’on trouve un joyeux mélange de ratios et de montants, les données sont centrées et réduites. Les CAH ont été produites par XLSTAT. La métrique entre observations est euclidienne dans tous les cas.
Premier essai de notre comparatif, l’agrégation de Ward :
De la belle classification, sans bavure. Les trois classes semblent évidentes : les pays les plus développés se retrouvent ensemble, ceux qui ont un niveau de vie inférieur également et les moins avancés économiquement idem. On peut toujours ne pas être d’accord avec deux ou trois appartenances mais globalement, tout ceci semble satisfaisant. Notons qu’avec cette méthode de Ward, l’Azerbaïdjan est un peu l’outlier de l’échantillon mais il appartient néanmoins à une classe de dix pays.
Le diagramme des niveaux laisse d’ailleurs deviner une CAH de bonne facture.
La distance minimale (appelée lien simple sur XLSTAT). Résultat nullissime ! La priorité de la CAH est ici d’écarter l’Azerbaïdjan, puis la Macédoine puis l’Islande. On trouve les pays les plus développés entre eux, certes, mais les liens de filiations détectés montrent des résultats sans intérêt pour la problématique qu’on peut se donner en lançant cette CAH…
Le diagramme des niveaux est trop rectiligne.
La distance maximale (« lien complet » sur XLSTAT aux traductions décidément particulières). On relève encore un gros déséquilibre des classes. Cette fois-ci, l’outlier de service est la Macédoine. Les deux clusters principaux sont relativement cohérents mais on attendait mieux…
La distance moyenne : un piètre résultat également, proche de la distance minimale sur cet exemple. Nous n’avons pas reproduit le dendrogramme complet mais une version simplifiée, afin de mieux montrer la structure en escaliers, typique des CAH de mauvaise qualité (que cette dernière soit due aux données ou à la méthode, peu importe).
Le bêta flexible mériterait une page pour lui seul afin de discuter sur les différentes valeurs qu’on peut lui attribuer. En l’espèce, on obtient là encore deux grandes classes plus l’Azerbaïdjan avec un bêta de -0,25 (graphique non reproduit).
En définitive, sur cet exemple réel mais d’échantillon faible (44 pays), seule la méthode de Ward s’est révélée robuste aux outliers et a présenté trois classes de tailles à peu près homogènes. Sans être un économiste averti pour en juger, ces clusters semblent relativement conformes aux états de développement des différents pays.