Somme des carrés des écarts à la moyenne
C’est une grandeur statistique de la plus haute utilité : la somme des carrés des écarts entre chaque valeur observée d’une série statistique et la moyenne arithmétique de celle-ci. Elle permet notamment d'établir la variance. Mais comme son calcul ne présente aucune difficulté, elle ne fait jamais l’objet d’un paragraphe spécifique dans les manuels. Alors rendons-lui hommage sur ce site en lui réservant une page entière !
Celle-ci se décompose en deux parties : sa mise en œuvre avec tableur et la démonstration qu’il existe une autre façon de la calculer.
Construction avec Excel
Optant pour une stratégie de différenciation, une entreprise de confection met sur le marché des costumes traditionnels. Le nombre de costumes vendus s’établit ainsi :
Mois | Nombre de costumes |
---|---|
Janvier | 25 |
Février | 31 |
Mars | 35 |
Avril | 48 |
Mai | 61 |
Juin | 60 |
Juillet | 52 |
Août | 39 |
Septembre | 38 |
Octobre | 32 |
Novembre | 29 |
Décembre | 30 |
En bas de la colonne, ou d’ailleurs n’importe où sur la feuille mais nous la placerons en cellule B14, nous entrons la fonction Moyenne. Donc, =MOYENNE(B2 :B13).
Ajoutons une colonne pour le carré de l’écart entre la valeur du mois et la moyenne de la série (donc 40). La formule apparaît sur la capture d’écran ci-dessous en C2, =(B2-$B$14)^2. Avant de la cliquer-glisser vers le bas, il faut nommer la cellule B14 ou, comme ici, la fixer avec des $ (touche F4 lorsqu’on se positionne dessus pour l’intégrer à la formule).
En C14, la somme des carrés à la moyenne (fonction =SOMME ou bouton Σ). Soit 1 670.
Une démonstration
Démontrons qu’une somme de carrés d’écarts à la moyenne est aussi égale à la somme des écarts multipliés par chaque valeur observée. Soit \(n\) le nombre d’observations.
\[\sum\limits_{i = 1}^n {{{\left( {{x_i} - \overline x } \right)}^2} = } \sum\limits_{i = 1}^n {\left( {{x_i} - \overline x } \right){x_i}} \]
Vu comme ça, ce n’est pas évident et pourtant…
Au préalable, démontrons que \(\sum\limits_{x = 1}^n {({x_i} - \overline x ) = 0} \)
On peut aussi écrire \(\sum\limits_{x = 1}^n {{x_i}} - n\overline x = 0\)
Or, selon la définition de la moyenne, \(\overline x = \frac{1}{n}\sum\limits_{x = 1}^n {{x_i}} \)
Donc \(n\overline x = \sum\limits_{x = 1}^n {{x_i}}\)
Parfait. Cette première démonstration étant faite, reprenons le premier membre de l’égalité que nous devons démontrer.
\(\sum\limits_{x = 1}^n {{{({x_i} - \overline x )}^2}}\) \(= \sum\limits_{x = 1}^n {({x_i} - \overline x )({x_i} - \overline x )} \)
\( = \sum\limits_{x = 1}^n {\left[ {({x_i} - \overline x ){x_i} - ({x_i} - \overline x )\overline x } \right]} \)
Commutativité de la somme :
\( = \sum\limits_{x = 1}^n {({x_i} - \overline x ){x_i}} - \sum\limits_{x = 1}^n {({x_i} - \overline x )\overline x } \)
Dans le second terme, on sort la moyenne de la somme puisque c’est un nombre réel (donc \(\overline x \sum {({x_i} - \overline x )} \)) et on constate qu’elle multiplie 0 (démontré ci-dessus). Donc le second terme est nul. CQFD.
\( = \sum\limits_{x = 1}^n {({x_i} - \overline x ){x_i} - \overline x \times 0} \)
\( = \sum\limits_{x = 1}^n {({x_i} - \overline x ){x_i}} \)
Pour l’illustrer, reprenons nos données. Nous retrouvons cette même somme de carrés des écarts à la moyenne, soit 1 670, mais en utilisant la seconde formule…
Mois | Nombre de costumes (1) |
Écarts à la moyenne (2) = (1) – 40 |
× nombre de costumes (3) = (1) × (2) |
---|---|---|---|
Janvier | 25 | -15 | -375 |
Février | 31 | -9 | -279 |
Mars | 35 | -5 | -175 |
Avril | 48 | 8 | 384 |
Mai | 61 | 21 | 1 281 |
Juin | 60 | 20 | 1 200 |
Juillet | 52 | 12 | 624 |
Août | 39 | -1 | -39 |
Septembre | 38 | -2 | -76 |
Octobre | 32 | -8 | -256 |
Novembre | 29 | -11 | -319 |
Décembre | 30 | -10 | -300 |
Somme | 0 | 1 670 |