Techniques et concepts de l'entreprise, de la finance et de l'économie 
(et fondements mathématiques)

La Classification Ascendante Hiérarchique (CAH)

logo

 

 

 

 

 

 

 

 

 

 

CAH sur individus

La classification ascendante hiérarchique (CAH) n’est pas la technique d'analyse de données la plus ancienne mais la problématique de la classification date de quelques milliers d’années, du moins dans sa version généalogique ! En entreprise, c’est essentiellement un outil au service du marketing.

La CAH organise les observations, définies par un certain nombre de variables, elles-mêmes divisées en modalités, en les regroupant de façon hiérarchique. Elle commence par agréger celles qui sont les plus semblables entre elles, puis les observations ou groupes d’observations un peu moins semblables et ainsi de suite jusqu’au regroupement trivial de l’ensemble de l’échantillon. Ces agrégations se font deux à deux.

C’est parce que cette technique part du particulier pour remonter au général qu’elle est dite « ascendante » ou agglomérative. Cette démarche est à l’inverse de techniques beaucoup moins utilisées en data mining et surtout à l’inverse du schéma mental auquel on se réfère pour classer nos fichiers sur disque dur ou pour chercher un livre dans une bibliothèque.

Les liens hiérarchiques apparaissent sur un dendrogramme tel que celui présenté ci-dessous (XLSTAT) :

Dendrogramme

Cet outil visuel est épatant. Le dendrogramme, ou arbre hiérarchique, montre non seulement les liaisons entre les classes mais la hauteur des branches nous indique leur niveau de proximité. Toutefois, contrairement aux problématiques scientifiques (zoologie, botanique…), on se préoccupe très rarement des liens de filiation qui existent entre les clusters dans un cadre de sciences humaines ou de sciences de gestion.

Les observations sont décrites par des valeurs numériques qui sont centrées et réduites s’il existe une différence d’échelle.

Selon le degré de perfectionnement de votre logiciel, vous aurez ou non à choisir une métrique pour juger de la proximité entre observations. Toutefois, la CAH n’utilise pas une métrique mais deux. En effet, cette technique repose sur la mesure d’une distance entre clusters. Et là aussi, il y a le choix.

En fonction des options retenues, les résultats peuvent être complètement différents. C’est pourquoi il est utile de faire précéder la CAH d’une analyse factorielle qui donne des indications sur la structure de l’échantillon. Cette multiplicité des choix laisse entrevoir les limites de la CAH : reposant sur des fondements mathématiques « faibles », elle nécessite le soutien d’autres techniques pour être tout à fait opérationnelle.

C’est soit la configuration du dendrogramme, soit un nombre de clusters prédéfini qui permet de tracer une coupure (ici en pointillés) à un certain niveau d’agrégation. Elle détermine le nombre de classes retenu pour la suite des évènements. Quelques logiciels délimitent la « meilleure » coupure. C’est le cas sur le dendrogramme ci-dessus. De prime abord, la césure semble mal située car elle se trouve entre deux nœuds quasi ex-æquo mais si elle avait été placée un peu plus bas, elle aurait généré une classe comprenant un seul individu.

Le dendrogramme et le diagramme de niveau des nœuds permettent d'établir un bon compromis entre dispersions intra et interclasses, ainsi que la courbe du R² en fonction du nombre de clusters. Une ANOVA sur un critère qui nous intéresse particulièrement permet de vérifier que les classes sont suffisamment individualisées.

Parfois, on ne peut rien tirer d’une CAH. Ci-dessous, vingt individus ont été classés avec vingt variables dont les valeurs ont été générées aléatoirement (XLSTAT) :

Dendrogramme
Niveaux

Résultat Xlstat

En conclusion, cet examen visuel fait de la CAH un outil plus pratique que les k-means mais cette technique de classification reste assez délicate à paramétrer. Par ailleurs, si la population à classifier est très importante, le temps de calcul peut se révéler long. Nous avons alors le choix d’échantillonner ou d'identifier un nombre restreint de groupes par une autre technique puis de procéder sur ceux-ci à une CAH (classification mixte). La plus ou moins bonne qualité de la classification peut être estimée avec une analyse factorielle discriminante.

C’est la proc CLUSTER de SAS qui est utilisée pour la CAH. Les dendrogrammes sont tracés par la proc TREE.

 

classificateur

 

© JY Baudot - Droits d'auteur protégés