Techniques et concepts de l'entreprise, de la finance et de l'économie 
(et fondements mathématiques)

La matrice de confusion

logo

 

 

 

 

 

 

 

 

 

 

Validation par table d'affectation

Il existe d’épatantes techniques statistiques ou de d'analyse de données pour classer une population. Contexte : on dispose de données supposées explicatives (caractères démographiques, réponses à une enquête…) et d'un critère qualitatif à « prédire ». Ce dernier est par exemple la fidélité d’un consommateur à une marque et il peut être soit binaire soit modulé selon plusieurs modalités. Quant aux données explicatives dont on dispose sur ce consommateur, ce peut être son âge, le montant de ses achats, sa région, etc.

Les techniques utilisées dépendent de la nature des variables explicatives (qualitatives et/ou quantitatives). Mentionnons l’analyse factorielle discriminante (AFD), l’analyse discriminante prédictive, la régression logistique, les arbres de décision, les réseaux de neurones, les algorithmes génétiques… Mais la technique dépend aussi du but recherché : dans notre exemple, ce peut être de prédire si tel consommateur sera ou non fidèle en fonction des informations dont on dispose sur lui, d’établir le profil-type du consommateur versatile, d’évaluer l’importance relative des variables explicatives…

Évidemment, le classement dans un groupe, réalisé par un outil statistique ou de data mining, ne sera pas parfait. On peut classer les clients d’un disquaire et constater que le rap trouve beaucoup d’amateurs dans la tranche d’âge 16-25 ans, il n’empêche qu’un septuagénaire peut très bien aimer le rap. Pourtant, je vous parie une inversion de matrice contre un dîner chez Maxim’s que n’importe quel outil statistique utilisant les données du disquaire l’aura catalogué comme « non amateur ».

C’est pourquoi les résultats d’une classification supervisée doivent toujours être validés. Non seulement cette étape permet de vérifier que le modèle présente une bonne capacité de généralisation, mais elle permet aussi de comparer les résultats de plusieurs techniques afin de privilégier la plus adaptée.

Si la population statistique est suffisamment importante, elle est séparée en deux pour l’analyse : une partie est utilisée pour les calculs (échantillon d’apprentissage) et l’autre l’est pour la validation (échantillon de test). Il n’existe pas de proportions types, tout dépend de la taille de l’échantillon et de la méthode employée.

Là aussi, plusieurs techniques de validation existent et se complètent. La plus simple consiste à établir une matrice de confusion ou table d’affectation, de laquelle on déduit un taux de bons classements théorique. Si deux groupes seulement sont en lice, elle se présente sous la forme d'un simple tableau à quatre cases.

Une illustration figure ci-dessous. Il s’agit d’une matrice de confusion générée par une AFD sur XLSTAT à partir de l’échantillon d’apprentissage. Pour information, le reste de l’étude se trouve en page exemple d’une AFD descriptive. En général, on place les réalisations en colonne et les prédictions en ligne mais ce n’est pas le cas avec ce logiciel.

matrice de confusion

Nous analysons un échantillon de trente automobilistes dont la moitié envisage un changement de véhicule. L’AFD a correctement reclassé 23 d’entre eux. Le taux de bons classements s’établit donc à 76,7 %. Il doit être comparé au taux de 50 % qui correspond, dans le cas où l’on ne retient que deux groupes de même taille, à une répartition au hasard.

Est-ce un bon résultat ? Apparemment, il n’a rien de fracassant. Mais du seul point de vue statistique il est impossible de se prononcer. Selon la problématique, on peut s’intéresser essentiellement au bon classement dans un seul des groupes. En pratique, il faut coupler la matrice de confusion avec une fonction de coût pour que le manager estime si le modèle est acceptable ou non. Dans notre exemple, les individus du groupe 1 (automobilistes ne souhaitant pas changer de véhicule) sont beaucoup mieux classés que ceux de l’autre groupe.

Si le modèle n’est pas satisfaisant en l’état, on peut se contenter de déplacer le curseur qui sert de frontière entre les deux groupes. Ici, la limite est 0 (valeur de la variable canonique de l’AFD). Si la variable prend une valeur négative, le modèle laisse supposer que l’automobiliste ne souhaite pas changer de véhicule. Observons le détail par individu tel qu’il est restitué par XLSTAT.

                   
  Classement a priori, a posteriori, probabilités d'appartenance, coordonnées des individus  
  et carrés des distances aux barycentres des groupes :      
                   
  Individu a priori a posteriori Prob. 1 Prob. 2 F1 D²(i,Barycentre(1)) D²(i,Barycentre(2))  
  Ind1 1 1 0,512 0,488 -0,026 11,542 11,637  
  Ind2 1 1 0,934 0,066 -1,466 4,910 10,223  
  Ind3 1 1 0,778 0,222 -0,691 4,578 7,083  
  Ind4 1 1 0,943 0,057 -1,552 0,831 6,454  
  Ind5 1 1 0,986 0,014 -2,350 8,739 17,257  
  Ind6 1 1 0,843 0,157 -0,927 6,377 9,735  
  Ind7 1 1 0,648 0,352 -0,336 2,900 4,118  
  Ind8 1 1 0,898 0,102 -1,200 0,612 4,961  
  Ind9 1 1 0,966 0,034 -1,845 2,928 9,616  
  Ind10 1 1 0,926 0,074 -1,392 5,511 10,558  
  Ind11 1 1 0,935 0,065 -1,470 1,740 7,068  
  Ind12 1 2 0,381 0,619 0,268 4,316 3,344  
  Ind13 1 2 0,455 0,545 0,100 2,901 2,540  
  Ind14 1 1 0,738 0,262 -0,570 5,560 7,628  
  Ind15 1 1 0,561 0,439 -0,134 5,758 6,245  
  Ind16 2 1 0,727 0,273 -0,539 3,415 5,369  
  Ind17 2 1 0,588 0,412 -0,197 7,891 8,605  
  Ind18 2 1 0,759 0,241 -0,632 1,514 3,804  
  Ind19 2 2 0,249 0,751 0,608 5,071 2,867  
  Ind20 2 1 0,817 0,183 -0,824 5,562 8,550  
  Ind21 2 1 0,713 0,287 -0,501 5,477 7,293  
  Ind22 2 2 0,097 0,903 1,234 5,206 0,734  
  Ind23 2 2 0,023 0,977 2,058 15,806 8,346  
  Ind24 2 2 0,023 0,977 2,064 9,696 2,216  
  Ind25 2 2 0,007 0,993 2,739 14,466 4,539  
  Ind26 2 2 0,076 0,924 1,376 7,025 2,038  
  Ind27 2 2 0,063 0,937 1,490 7,374 1,975  
  Ind28 2 2 0,147 0,853 0,971 8,690 5,170  
  Ind29 2 2 0,049 0,951 1,632 7,863 1,949  
  Ind30 2 2 0,021 0,979 2,114 15,002 7,341  
  Remarque : les carrés des distances sont les carrés des distances de Mahalanobis.  
  En gras, individu reclassé            
                   

Et si l’on déplaçait le curseur à -0,6, qu’observerions-nous ? D’abord qu’il y aurait vingt-deux individus bien classés au lieu de vingt-trois (je vous laisse le vérifier). Mais aussi que treize automobilistes du groupe 2 seraient correctement classés au lieu de dix. Donc, si le coût d’un mauvais classement en groupe 2 est plus élevé qu’en groupe 1, il peut être intéressant de reconsidérer la frontière du modèle et de la décaler de 0 vers -0,6 même si la performance globale est moins bonne qu’elle ne l'était dans une optique purement statistique.

 

matrice confuse

 

© JY Baudot - Droits d'auteur protégés