Principes de l'ANOVA et tableau avec exemple

Principe et tableau de l'ANOVA

Nous allons entrouvrir le capot de l’ANOVA (ANalysis Of VAriance).

Principe

Pourquoi appeler cette méthode « analyse de variance » ? Parce qu’on ne va pas directement comparer les moyennes mais la dispersion de l’ensemble des observations, tous échantillons confondus, avec la dispersion de chaque échantillon pris individuellement. C’est le bon vieux principe de décomposition de la variance ou de l’inertie que l’on retrouve en régression et dans plusieurs techniques de data mining : AFD, k-means…

Une condition d’utilisation essentielle est que les échantillons ont tous la même variance, estimateur non biaisé de la variance de la population.

Ainsi, il suffit que l’un d’entre eux montre une moyenne différente des autres pour que la variance globale (tous échantillons confondus) soit mécaniquement supérieure aux variances d’échantillons. CQFD.

n décompose la somme des carrés totaux (SCT) en somme des carrés interclasses et somme des carrés intra-classes. Les « totaux » sont les distances au carré (\(D^2\)) entre valeurs observées et moyenne totale, les « interclasses » sont les \(D^2\) entre moyennes d’échantillons (pondérées) et moyenne totale, et les « intra-classes » sont la somme, sur l’ensemble des échantillons, des \(D^2\) entre les valeurs observées et la moyenne de leur échantillon d’affectation. OK ?

Toutes ces distances au carré, qui sont rappelons-le des variables aléatoires, permettent de nous décaler sur le jeu des variances. La SCT, divisée par l’effectif total moins un, est un estimateur non biaisé de la variance totale si H0 est vérifiée. L’estimation de la variance RÉSIDUELLE est quant à elle égale à la somme des carrés intra-classes, divisée par \(n - k\) (\(k\) étant le nombre d’échantillons). La différence entre les deux, c’est-à-dire la variance INTERCLASSE, est la somme des carrés interclasses divisée par \(k - 1.\)

C’est le test unilatéral du \(F\) qui permet de comparer deux variances si les distributions sont normales. C’est donc lui que nous allons sortir de notre boîte à outils. Si \(F\) est le ratio \(\frac{\rm{variance\;interclasse}}{\rm{variance\;intra-classe}},\) il suit une loi de Fisher à \(k – 1\) et \(n – k\) degrés de liberté, du moment que H0 est vérifiée (notez que ça ne fonctionnerait pas avec \(\frac{\rm{variance\;interclasse}}{\rm{variance\;totale}}\) puisque ces paramètres ne sont pas indépendants).

Petite remarque en passant, si le test \(F\) est utilisé pour comparer deux variances, il n’est pas compétent pour en comparer plusieurs ! Ce n’est pas avec lui que l’on teste préalablement l’homoscédasticité entre échantillons mais avec les tests de Bartlett et de Levenne…

Le tableau de l’ANOVA à un facteur

Il illustre le calcul du \(F.\) Dans l’exemple ci-dessous, nous utilisons SPSS. En page d'ANOVA à 1 facteur figure un exemple avec Excel et Minitab.

Exemple avec SPSS : dans le cadre d’une éventuelle mise sur le marché d’une mousse à la banane, on demande à 14 répondants de 3 pays différents de noter sur 10 quatre caractéristiques du prototype de cette mousse (goût, aspect visuel, odeur et texture en bouche). La somme des quatre notes se traduit par une note sur 40.

mousse

Le facteur est la variable « pays » et il comprend trois niveaux (France, Italie et Suède).

Le tableau multicolore ci-dessous bénéficie de la fonction Mise en forme conditionnelle d’Excel :

Exemple

On procède à une ANOVA sur SPSS. Ce dernier a la bonté de nous restituer l’état suivant :

SPSS

En première colonne figurent les sommes des carrés par rapport aux moyennes, entre classes et intra-classes.

Le calcul de la somme des carrés entre les classes ne présente pas la moindre difficulté :

Between

La somme des carrés intra-classes s’effectue sur le même principe.

En deuxième colonne figurent les degrés de liberté, c’est-à-dire 2 (soit \(3 - 1\)) et 39 (soit \(42 - 3\)).

La troisième colonne (carrés moyens) est la division de la première par la deuxième. La valeur de 2,167 est tout simplement la variance interclasses alors que 41,571 est la valeur de la variance intra-classe qu’on peut retrouver à partir du rapport d’Excel :

Rapport Excel

Note : bien qu'apparemment différentes, les variances peuvent être considérées comme identiques compte tenu de la faible taille des échantillons (p-value de 0,58 entre France et Suède, par exemple : on ne rejette pas l'hypothèse d'égalité).

Si l’on souhaite connaître la variance totale à partir des tableaux ci-dessus, soit on utilise la fonction VAR sur le tableau Excel, soit on divise 1 625,649 par 41 (Cf. tableau SPSS). On obtient 39,649.

En quatrième colonne, le \(F\) égal à 0,052 est le rapport \(\frac{2,167}{41,571}.\)

En dernière colonne, la p-value est bien supérieure aux seuils qu’on pourrait se donner (\(5\%,\) par exemple). On ne rejette pas H0. Compte tenu des effectifs et de la dispersion des notes, les moyennes ne présentent pas de différence significative entre les trois pays.

Les tableaux de plusieurs logiciels sont copiés sur ce site : utilitaire d'Excel et Minitab (ANOVA), Tanagra et Statgraphics Centurion (tests sur série chronologique) ...

artiste-statisticien