Les carrés des écarts à la moyenne

Somme des carrés des écarts à la moyenne

C’est une grandeur statistique de la plus haute utilité : la somme des carrés des écarts entre chaque valeur observée d’une série statistique et la moyenne arithmétique de celle-ci. Elle permet notamment d'établir la variance. Mais comme son calcul ne présente aucune difficulté, elle ne fait jamais l’objet d’un paragraphe spécifique dans les manuels. Alors rendons-lui hommage sur ce site en lui réservant une page entière !

Celle-ci se décompose en deux parties : sa mise en œuvre avec tableur et la démonstration qu’il existe une autre façon de la calculer.

 

Construction avec Excel

Optant pour une stratégie de différenciation, une entreprise de confection met sur le marché des costumes traditionnels. Le nombre de costumes vendus s’établit ainsi :

Mois Nombre de costumes
Janvier 25
Février 31
Mars 35
Avril 48
Mai 61
Juin 60
Juillet 52
Août 39
Septembre 38
Octobre 32
Novembre 29
Décembre 30

En bas de la colonne, ou d’ailleurs n’importe où sur la feuille mais nous la placerons en cellule B14, nous entrons la fonction Moyenne. Donc, =MOYENNE(B2 :B13).

Ajoutons une colonne pour le carré de l’écart entre la valeur du mois et la moyenne de la série (donc 40). La formule apparaît sur la capture d’écran ci-dessous en C2, =(B2-$B$14)^2. Avant de la cliquer-glisser vers le bas, il faut nommer la cellule B14 ou, comme ici, la fixer avec des $ (touche F4 lorsqu’on se positionne dessus pour l’intégrer à la formule).

tableau Excel

En C14, la somme des carrés à la moyenne (fonction =SOMME ou bouton Σ). Soit 1 670.

costumes estoniens

 

Une démonstration

Démontrons qu’une somme de carrés d’écarts à la moyenne est aussi égale à la somme des écarts multipliés par chaque valeur observée. Soit \(n\) le nombre d’observations.

\[\sum\limits_{i = 1}^n {{{\left( {{x_i} - \overline x } \right)}^2} = } \sum\limits_{i = 1}^n {\left( {{x_i} - \overline x } \right){x_i}} \]

Vu comme ça, ce n’est pas évident et pourtant…

Au préalable, démontrons que \(\sum\limits_{x = 1}^n {({x_i} - \overline x ) = 0} \)

On peut aussi écrire \(\sum\limits_{x = 1}^n {{x_i}} - n\overline x = 0\)

Or, selon la définition de la moyenne, \(\overline x = \frac{1}{n}\sum\limits_{x = 1}^n {{x_i}} \)

Donc \(n\overline x = \sum\limits_{x = 1}^n {{x_i}}\)

Parfait. Cette première démonstration étant faite, reprenons le premier membre de l’égalité que nous devons démontrer.

\(\sum\limits_{x = 1}^n {{{({x_i} - \overline x )}^2}}\) \(= \sum\limits_{x = 1}^n {({x_i} - \overline x )({x_i} - \overline x )} \)

Développons.

\( = \sum\limits_{x = 1}^n {\left[ {({x_i} - \overline x ){x_i} - ({x_i} - \overline x )\overline x } \right]} \)

Commutativité de la somme :

\( = \sum\limits_{x = 1}^n {({x_i} - \overline x ){x_i}} - \sum\limits_{x = 1}^n {({x_i} - \overline x )\overline x } \)

Dans le second terme, on sort la moyenne de la somme puisque c’est un nombre réel (donc \(\overline x \sum {({x_i} - \overline x )} \)) et on constate qu’elle multiplie 0 (démontré ci-dessus). Donc le second terme est nul. CQFD.

\( = \sum\limits_{x = 1}^n {({x_i} - \overline x ){x_i} - \overline x \times 0} \)

\( = \sum\limits_{x = 1}^n {({x_i} - \overline x ){x_i}} \)

CQFD

Pour l’illustrer, reprenons nos données. Nous retrouvons cette même somme de carrés des écarts à la moyenne, soit 1 670, mais en utilisant la seconde formule…

Mois Nombre de costumes
(1)
Écarts à la moyenne
(2) = (1) – 40
× nombre de costumes
(3) = (1) × (2)
Janvier 25 -15 -375
Février 31 -9 -279
Mars 35 -5 -175
Avril 48 8 384
Mai 61 21 1 281
Juin 60 20 1 200
Juillet 52 12 624
Août 39 -1 -39
Septembre 38 -2 -76
Octobre 32 -8 -256
Novembre 29 -11 -319
Décembre 30 -10 -300
Somme   0 1 670

 

grand écart