L'effet taille

Facteur taille dans une ACP

Imaginons : vous réalisez une ACP sur les variables et votre logiciel vous restitue un surprenant cercle des corrélations où tous les points sont regroupés du même côté d’un axe factoriel et sont caractérisés par des valeurs élevées. Vous avez constaté un facteur taille.

 

Données

Soit un tableau de contingence sur lequel figurent les campings et hôtels, par catégorie (9 variables) et selon les vingt-deux anciennes régions de France, au 01/01/07 (source : INSEE, direction du tourisme). Question : existe-t-il des différences structurelles entre les régions ? Si oui, plutôt en fonction du type d’hébergement (camping ou hôtel) ou du niveau de confort ?

hébergements

hôtel

 

Étude

Le plan formé par les deux premiers axes factoriels est reproduit ci-dessous (par Statgraphics Centurion, qui ne présente pas le nuage de points dans un cercle). \(C_1\) signifie Camping 1 étoile, \(H_0\) signifie Hôtel 0 étoile, etc.

Facteur taille Statgraphics

Toutes les variables sont de même signe sur le premier axe factoriel. Que signifie ceci ? Qu'elles sont toutes corrélées positivement entre elles. Manifestement, un effet taille pollue notre ACP.

Les régions n’ont pas des structures très différentes dans leur répartition camping / hôtel et dans l’échelle de confort, mais elles ont des capacités d’hébergement assez diverses.

À condition que son élimination soit compatible avec la problématique de l'étude, cet effet taille peut être évité ou atténué de plusieurs façons : soit en délaissant le premier axe factoriel (solution de facilité), soit en utilisant un autre type d’ACP, notamment Varimax (solution de difficulté, mais les conclusions seront plus sûres) ou une ACP sur les rangs, soit en retraitant les données. Une idée possible est alors de se servir des pourcentages. Voyons ceci.

Chaque région vaut maintenant \(100\%,\) Rhône-Alpes ayant alors le même poids que Champagne-Ardennes au lieu de lui être huit fois plus importante. Seules les différences de structure d’une région à l’autre nous préoccupent. Le premier plan factoriel devient beaucoup plus intéressant (réalisation cette fois-ci sur Tanagra) :

cercle

Non seulement les campings et les hôtels sont éloignés sur le premier axe, ce qui laisse penser qu’il existe des régions « plutôt campings » et des régions « plutôt hôtels », mais certaines catégories sont elles aussi bien séparées. En particulier, les hébergements « bas de gamme » (\(C_1\) et \(H_0\)) semblent caractériser certaines régions plutôt que d’autres. Devrait-on observer d'autres axes ? Voyons le tableau des valeurs propres.

Tanagra

Oui, trois axes seront nécessaires pour expliquer convenablement la dispersion (ce que nous ne ferons pas ici, à votre grand regret). Nous n’avons pas restitué le tableau des contributions. Voir la page résultats d’une ACP sur les variables pour une étude plus complète (mais avec un autre exemple).

Note : il est bien évident que l’on n’observe jamais d'effet taille lorsqu’on procède à une ACP sur individus puisque le nuage de points est alors centré sur son barycentre.

 

effet taille