Données supplémentaires dans une ACP
Une pratique courante, lorsque l’on procède à une analyse factorielle, est de considérer des variables ou des individus comme illustratifs (ou « supplémentaires »), ce qui consiste à ne pas s’en servir pour les calculs des composantes principales mais à les conserver au chaud pour les placer ensuite parmi les résultats. Cette opération ne relève pas d’un ostracisme éhonté mais obéit au contraire à de louables préoccupations, comme nous allons le voir dans le cadre de l'ACP sur variables et de l'ACP sur individus.
Les individus supplémentaires
Un individu supplémentaire est par exemple une valeur aberrante ou une donnée pour laquelle on a des doutes sur la fiabilité. Il n’est pas question que cette étrangeté vienne fausser les résultats d’une étude patiemment construite…
Attention, par individu, il faut entendre unité statistique. Si par exemple ce sont des pays et que certains d’entre eux sont non seulement peu significatifs (Monaco, Vatican…) mais qu’en plus ils présentent des caractéristiques très particulières, il vaut mieux ne pas les intégrer aux calculs (surtout si les pays ne sont pas pondérés par leur population). En revanche, rien n’interdit de les visualiser dans un plan factoriel…
D’une façon générale, la caractérisation d’ « illustratif » consiste à attribuer une pondération nulle à un individu.
Les variables supplémentaires
Dans une étude, toutes les variables n’ont pas la même fonction, notamment lorsque certaines d’entre elles peuvent être expliquées par d’autres. Par exemple, si l’on relève des données démographiques sur plusieurs régions (taux de natalité, de mortalité infantile, sex ratio…), elles peuvent être considérées comme facteurs explicatifs du résultat d’un vote régional alors que la causalité inverse serait ridicule. La problématique est assez proche de celle d’une régression multiple mais il peut exister plusieurs variables expliquées et l’on n’obtient pas de véritable modèle.
Sans pour autant participer à la construction des composantes principales, de telles variables figurent tout de même graphiquement dans le cercle des corrélations.
Les variables qualitatives
La technique des individus supplémentaires sert aussi à intégrer des variables nominales dans une ACP. Bien sûr, celles-ci ne participent pas à la formation des axes. Il s’agit d’une solution « dégradée » (comme disent les informaticiens).
La procédure consiste à créer des individus « calculés » représentatifs de la moyenne d’un groupe. Si par exemple l’analyse porte sur mille individus des deux sexes, on peut ajouter un homme et une femme fictifs qui présentent les caractéristiques moyennes du genre afin d’observer leurs coordonnées (graphiquement et / ou par leurs composantes principales).
Exemple de variable supplémentaire dans une ACP
Cet exemple est inventé et toute ressemblance avec des chiffres réels serait une sacrée coïncidence. Seize clients d’une banque ont été interrogés sur leur intérêt pour un produit d’épargne. Cette marque d’intérêt a été placée sur une échelle non comparative, notée entre 1 et 7. On possède sur ces clients les données numériques suivantes : âge, revenu mensuel, montant du patrimoine mobilier et nombre de comptes bancaires.
L’étude consiste à savoir quel type de client sera intéressé par le produit.
Indiv. | Âge | Revenu | Patrimoine | Nombre comptes | Intérêt |
1 | 18 | 1 200 | 10 000 | 1 | 1 |
2 | 45 | 2 500 | 150 000 | 2 | 3 |
3 | 22 | 1 000 | 5 000 | 1 | 2 |
4 | 35 | 2 500 | 70 000 | 2 | 3 |
5 | 50 | 3 000 | 260 000 | 3 | 6 |
6 | 27 | 1 800 | 50 000 | 2 | 1 |
7 | 70 | 1 100 | 350 000 | 2 | 7 |
8 | 65 | 2 000 | 400 000 | 3 | 6 |
9 | 30 | 3 000 | 150 000 | 2 | 5 |
10 | 51 | 4 000 | 600 000 | 2 | 6 |
11 | 21 | 1 000 | 30 000 | 3 | 4 |
12 | 72 | 1 000 | 50 000 | 1 | 2 |
13 | 29 | 2 500 | 5 000 | 1 | 2 |
14 | 61 | 4 000 | 40 000 | 2 | 5 |
15 | 41 | 5 000 | 360 000 | 2 | 2 |
16 | 60 | 7 000 | 1 000 000 | 4 | 4 |
Comme toutes les données sont numériques, nous procédons à une ACP. Mais la variable « intérêt » n’a pas à participer à la distinction entre les sous-populations. Ce que l’on souhaite savoir, c’est si cette variable est suffisamment proche d’une autre, connue a priori, pour positionner le produit.
Une ACP a été réalisée sur Tanagra. Voici les résultats :
Il existe bien sûr quatre axes factoriels puisque quatre variables ont servi à déterminer les composantes principales. Avec les deux premières composantes, \(84\%\) de l’inertie est expliquée. Le premier plan principal devrait suffire à notre bonheur.
Nous procédons à une première étude avec Tanagra. Mode d’emploi : seules les variables actives sont prises en compte. Puis nous définissons à nouveau les statuts des variables pour que Tanagra exécute le cercle des corrélations. Les variables actives et illustratives figurent en « Input » et les deux premiers axes en « Target ».
Globalement, les variables sont liées entre elles et l’on observe un effet taille. Mais la liaison n’est pas fameuse entre la variable d’appétence pour le produit et les données relevées sur les clients (le point représentatif est assez éloigné du cercle).
À noter que Tanagra permet aussi d’intégrer des individus illustratifs et des variables supplémentaires qualitatives.