Classifications non supervisées : généralités

Généralités sur les techniques de clustering

Dans sa version non formalisée, on peut affirmer que la classification existe dès qu’un choix doit être opéré et donc que n’importe quel animal évolué est capable de classer. Votre chien, votre chat ou vos inséparables de Fischer (avec un C) ont leurs préférences alimentaires et instinctivement classent leurs croquettes ou leurs graines selon leurs propres critères (à manger immédiatement / à manger plus tard / à manger en cas de vie ou de mort / plutôt mourir).

Classifications

Nous autres humains percevons le monde en nous appuyant sur une flopée de segmentations mentales, formalisées ou implicites. Le nombre de classifications existantes donne une idée de l’infini car tout peut être classé de mille et une manières. Un poulet sera classé comme « viande blanche » par le cuisinier, comme « galliforme » par le zoologiste tandis qu’il apparaîtra comme produit dans la comptabilité de l’éleveur et comme marchandise dans celle du négociant.

poulet

Et l'analyse de données dans tout ça ?

Les techniques exposées sur ce site permettent de classer tout ce qui peut l'être à partir d’un nombre de critères qualitatifs et/ou quantitatifs qui peut être extrêmement élevé et, cerise sur le gâteau, de façon relativement objective.

Les différentes formes de classifications, également connues sous les noms de clustering ou de segmentation, visent à partitionner une population en groupes homogènes dans le cadre de l’objectif préalablement fixé. C’est notamment un outil de segmentation de clientèle et de produits qui permet d'agir de façon différenciée selon les profils.

Les classifications peuvent être opérées sur des variables (voir une illustration en page d'ACM) ou, plus souvent, sur des individus (unités statistiques).

Ce sont des méthodes descriptives sur les résultats desquels s'appuyent éventuellement des méthodes prédictives. Elles ne reposent pas sur des théorèmes mathématiques très solides et comme il est techniquement impossible d’explorer toutes les combinaisons de classes, on n’est jamais certain d’aboutir à un optimum global. D’ailleurs, s’il existait une méthode infaillible, nous n’aurions pas un tel choix de techniques…

Principe

Un clustering consiste à maximiser l’inertie interclasse ou, ce qui revient au même, de minimiser l’inertie intraclasse, sous la contrainte d’obtenir un nombre de clusters compatible avec l’objectif qu’on s’est donné. Sans cette contrainte, on obtiendrait autant de classes que d’individus. On retrouve d’ailleurs cet éternel écueil : à vouloir être trop précis, on perd le pouvoir de généralisation des résultats. Par ailleurs, si j’évoque l’inertie qui nécessite une mesure par les carrés des distances, il existe également d’autres métriques utilisables.

Maintenant, classons les classifications !

1- Les méthodes non hiérarchiques partitionnent une population en classes disjointes sans donner d’indications sur leurs proximités. Le responsable du marketing se fiche de savoir que les bobos sont plus proche du cluster « classe aisée » que du cluster « famille rurale » si de toute façon il leur destine un mailing différent. Nous préférons réserver le terme de « typologie » aux méthodes non hiérarchiques car chaque individu se définit par rapport à un « type » (barycentre de sa classe). Exemple de technique de typologie : les k-means.

2 - Les méthodes hiérarchiques (et là, il vaut mieux employer le terme « classification »). Si vous utilisez Windows, c’est sur ce même principe que vous classez vos fichiers en dossiers et sous-dossiers. C’est aussi le principe de la taxinomie, en zoologie ou en botanique. On sait que le rat noir est plus proche du rat gris que de la baleine bleue. Et en fonction de l’objet de l’étude, on restreint l’analyse au niveau de la classe, de l’ordre, de la famille, de l’espèce ou de la sous-espèce. Cela dit, il existe toujours une part d’arbitraire dans ces découpages : une famille peut être plus ou moins homogène, les espèces s’hybrident ou non… Là où il y a classification, il y a dilemme. Exemple de classification hiérarchique : la CAH.

3 - Les analyses floues, où les classes ne sont pas disjointes.

En définitive, nous sommes en présence d’une problématique qui n’entre pas dans le champ d’une « vérité » mathématique, c’est pourquoi un logiciel complet vous proposera d’une part le choix d’une métrique et d’autre part le choix d’une méthode.

Procédure

La première étape et la plus importante est de bien choisir ses variables. Si la classification ne constitue pas toujours la dernière partie d’une analyse, elle n’en est pas non plus la première. Ainsi, les analyses factorielles, voire la régression multiple, peuvent permettre l’identification des variables les plus pertinentes.

La seconde étape est le choix méthodologique (choix d’une technique et d’une métrique).

Troisièmement, vous déterminez le nombre de classes (s'il n'est pas imposé) en vous aidant éventuellement des résultats d’une ACP ou d’une ACM. Les techniques hiérarchiques n’exigent cependant pas d’a priori. Un autre intérêt à coupler un clustering à une analyse factorielle est de pouvoir préalablement identifier et écarter les valeurs aberrantes.

Quatrièmement, vous demandez poliment au logiciel de procéder aux calculs, éventuellement en précisant un nombre maximal d’itérations vu que vous êtes plutôt pressé.

Cinquièmement, l'interprétation des résultats : existe-t-il une logique dans les regroupements ? Puis, éventuellement, revenir à l’étape précédente en utilisant une autre méthode. Si l’échantillon est grand, il est très improbable qu’une méthode classe les individus de la même façon qu’une autre. C’est particulièrement vrai pour les typologies non hiérarchiques : en raison de l’algorithme de calcul itératif qui comprend une part d’aléa dans l’initialisation, il est d'ailleurs peu probable d’obtenir deux fois de suite le même résultat avec la même méthode et le même logiciel !

Il est donc indiqué de valider le résultat d’une classification, soit avec la même méthode paramétrée différemment, soit avec une autre méthode de classification, soit avec une analyse factorielle discriminante.

Pour terminer cette introduction aux classifications et si le sujet vous intéresse, sachez qu’il existe une association spécialisée dans ce domaine, la Société Francophone de Classification (SFC) : https://www.sfc-classification.net/

classification