Techniques et concepts de l'entreprise, de la finance et de l'économie 
(et fondements mathématiques)

Méthodes d'agrégation de la CAH

logo

 

 

 

 

 

 

 

 

 

 

Agrégation des classes d'une CAH

Soit une population décrite par des variables quantitatives. Le défi à relever consiste à distinguer deux ou plusieurs sous-populations relativement homogènes. La classification ascendante hiérarchique (CAH) est une technique qui permet de réaliser un tel exploit. Mieux, elle permet de MESURER les proximités. Ainsi, les unités statistiques les plus proches sont d'abord regroupées, puis des sous-ensembles d'unités sont à leur tour considérés comme plus ou moins voisins les uns des autres. Le regroupement d'unités similaires (voire d'une seule) est nommé cluster.

Ainsi, les distances sont utilisées afin d’établir une classification en arborescence. Celle-ci est ascendante puisqu'on cherche des regroupements. Si l'on partait de la population totale pour séparer des groupes dissemblables, la classification serait descendante.

Graphiquement, des observations comportant n variables constituent k sous-nuages de points aux contours en principe flous et aux formes pas toujours simples dans un espace à n dimensions.

Il existe plusieurs systèmes de mesure et telle technique efficace pour mesurer un éloignement entre deux formes de nuages laissera à désirer pour mesurer une distance entre deux autres formes. Heureusement (?), la panoplie des techniques est particulièrement large.

Neuf méthodes sont mentionnées ci-dessous. Les options SAS indiquées sont celles de la proc CLUSTER.

La méthode de Ward : c’est la plus courante. Elle consiste à réunir les deux clusters dont le regroupement fera le moins baisser l’inertie interclasse. C’est la distance de Ward qui est utilisée : la distance entre deux classes est celle de leurs barycentres au carré, pondérée par les effectifs des deux clusters. On suppose tout de même l’existence de distances euclidiennes entre observations. Cette technique tend à regrouper les petites classes entre elles. Sur SAS, METHOD=WARD.

La distance minimale (single linkage) : elle est la plus simple à comprendre. Il s'agit de la plus petite distance mesurée entre deux observations de clusters différents. Elle produit souvent des nuages allongés. Sur SAS, METHOD=SINGLE.

La distance maximale (complete linkage) : s’il n’y a pas d’outlier. Elle produit au contraire des nuages compacts (c’est-à-dire des cumulus alors que la distance minimale produit des cirrus ! Bon, je plaisante). Sur SAS, METHOD=COMPLETE.

La distance moyenne non pondérée (unweighted pair-group average linkage) : le logiciel mesure tous les liens entre chaque observation du cluster A et chaque observation du cluster B (dessin ci-dessous) et en fait une moyenne. C’est une des méthodes les plus efficaces. Elle tend à réunir des clusters aux inerties faibles : on voit bien que si les points bleus étaient davantage éloignés entre eux, la distance globale serait allongée… Sur SAS, METHOD=AVERAGE.

Distance moyenne non ponérée

La distance moyenne pondérée (Weighted pair-group average linkage) : même méthode mais en pondérant chaque lien point à point en fonction du poids des clusters d’appartenance. Sur SAS, METHOD=FLEXIBLE avec BETA=0.

La distance des barycentres non pondérée : assez simple, elle consiste à mesurer les distances entre barycentres de clusters. Sur SAS, METHOD=CENTROID.

La distance des barycentres pondérée : idem, mais en pondérant par les poids des clusters, on évite des déséquilibres.

La distance moyenne après fusion : moyenne de tous les liens, qu’ils soient entre observations de deux clusters différents ou intraclasses. Cette méthode est la seule qui s’attache directement au cluster obtenu et non aux caractéristiques des clusters candidats.

Le bêta flexible : faites du tuning sur votre métrique ! Bêta est un coefficient paramétrable entre -1 et 1. β = 0 équivaut à la méthode de la distance moyenne pondérée. Proche de 1 et les nuages s’allongent. Négatif et c’est l’inverse. Sur SAS, METHOD=FLEXIBLE avec par défaut β = -0,25.

Ces différents systèmes de mesure sont accessibles avec Statistica, sauf les deux derniers. SAS propose quelques raretés supplémentaires.

Les distances programmées sur XLSTAT font l’objet d’une comparaison sur ce site.

 

singes

 

© JY Baudot - Droits d'auteur protégés