Inertie d'un nuage de points
Si vous ne connaissez pas la mécanique, vous ignorez que l’inertie mesure la résistance d’un corps à changer son mouvement de rotation autour d’un point. Prenez l’exemple du balai que l’on veut faire pivoter autour de son centre de gravité (repris dans l’article « Moment d’inertie » de Wikipédia) : en raison de la répartition de sa matière, il est plus facile de le faire tourner autour de l’axe du manche (comme un essieu) que de le faire tourner comme un bâton de majorette. Donc, l’inertie est plus faible sur l’axe qui traverse le manche sur toute sa longueur que sur celui qui transperce son diamètre, un peu au-dessus de la brosse. Essayez, pour voir.
L'inertie dans un nuage
C’est fait ? Reprenons. Mais abandonnons le balai pour un nuage de points. On mesure l’inertie totale comme la somme des carrés des distances des points par rapport au centre de gravité. Dans le cas où tous les points ne sont pas affectés du même poids (en mécanique, on aurait dit « masse »), les carrés des distances sont bien sûrs pondérés. La formule est donc très simple. Si l’on note \(d\) la distance d’un point par rapport au centre de gravité du nuage, on a pour \(n\) unités affectées de poids \(p\) :
\(\displaystyle{I = \sum_{i=1}^n {p_id_i^2}}\)
Il en découle que plus on ajoute de points, plus l’inertie augmente (il est plus difficile de manœuvrer un cargo qu’un chalutier). On remarque aussi que, dans la mesure où l’on additionne des carrés de distances, un point éloigné du centre de gravité impacte davantage l'inertie totale qu’un point « moyen », à poids égal.
L’inertie n’est donc pas définie par rapport à un axe mais par rapport à un point.
Dans la mesure où l’on ne mesure pas l’inertie d’un statisticien par la distance qui le sépare de son écran (encore que…), on peut se demander pourquoi nous racontons tout ça. Explications.
Situons-nous dans la situation où les variables sont quantitatives. Si toutes les observations sont affectées de la même pondération, l’inertie se confond avec un indicateur de dispersion. Donc, inertie \(=\) nombre d’observations \(×\) variance ou, si l’on dispose de plusieurs variables, \(n\) \(×\) somme de leurs variances (cette somme étant la trace de la matrice des variances-covariances).
À titre d’illustration, la problématique des k-means consiste à identifier des groupes au sein desquels l’inertie des valeurs observées par rapport au barycentre du groupe est minimale (toutefois, d’autres métriques existent).
Le théorème de Huygens
C’est sur le théorème de Huygens que s’appuie la décomposition de l’inertie (ou de la matrice des variances-covariances) :
Illustration du théorème : les neuf distances totales (les traits du dessin du haut) au carré entre les observations rouges et leur barycentre vert sont égales aux douze distances représentées en bas, au carré (attention, les trois inerties interclasses sont multipliées par 2, 3 ou 4). Cette propriété est tellement merveilleuse qu’elle est abondamment utilisée : l’ANOVA s’appuie sur la décomposition de la variance, mais aussi la régression linéaire et la mesure de sa qualité par le \(R^2\) ou encore les analyses factorielles.
Analyse des données
La plupart des techniques de data science utilisent des projections de points sur des axes. Les projetés composent un nouveau nuage de points en forme de baguette. Ils ont leur propre barycentre (appelons-le \(O\)) et chaque projeté a une certaine inertie par rapport à \(O.\)
Si un point \(A\) est projeté orthogonalement sur l’axe et qu’on appelle \(P\) cette projection, on obtient un triangle rectangle \(OAP\) et la distance carrée de \(OA\) est décomposable en vertu du bon vieux théorème de Pythagore.
Par conséquent, si l’on cherche un axe passant par le centre de gravité \(O\) et qui doit « absorber » un maximum d’inertie, il faut minimiser les distances des projections sur l’axe.
Ainsi, les analyses factorielles (ACP, AFC…) consistent à déterminer les axes qui absorbent le plus d’inertie possible. Si l’on avait un nuage de points en forme de balai (après tout pourquoi pas ?), la direction « d’inertie projetée maximale » (ou de distorsion projetée minimale, ce qui revient au même) se confondrait avec le manche. Elle inclurait l’essentiel de l’inertie totale, le reste étant absorbé par le deuxième axe qui coupe perpendiculairement le premier au-dessus de la brosse.
Dans le cas d’une ACP normée, l’inertie du nuage des individus est égale au nombre de variables tandis que l’inertie du nuage des variables est égale au nombre [variables × nombre d’individus]. Aucune pondération n’intervient, à la différence de l’AFC où les distances sont pondérées par les fréquences marginales.