Variance et écart-type : première approche
En statistiques, l'écart-type est une notion majeure. Ceci est une initiation adaptée à un niveau d’étude de seconde.
Présentation
Lorsqu’on étudie une variable statistique quantitative sur une population, il est souvent utile de savoir à quel point celle-ci est dispersée. Par exemple, pour un contrôle qualité, ce n’est pas du tout la même chose si une coopérative agricole remplit ses sacs de grain de 25 kg qui pèsent tous 25 kg à 10 grammes près (dispersion faible) ou avec des poids dont la moyenne se situe bien à 25 kg mais qui peuvent varier de 24 à 26 kg (dispersion forte).
Une première façon d’évaluer cette dispersion est enseignée en seconde. C'est la technique des quartiles. Ils ne sont pas difficiles à calculer mais leur interprétation peut être malaisée. Il est plus pratique de suivre un seul indicateur pour mesurer un niveau de dispersion.
Cet indicateur existe et c’est l’écart-type. Calculer un écart-type à la main est une vraie galère mais heureusement, il est facile de l’obtenir directement soit avec une calculatrice, soit avec Excel, soit avec une flopée d’autres logiciels.
L’écart-type est la racine carrée de la variance. Il s’écrit \(\sigma\) (sigma). Un calcul à la main suppose donc de déterminer dans un premier temps cette fameuse variance. Mais elle n’est qu’une étape. Comme c’est un carré, elle n’est pas exprimée dans la même unité que le critère étudié, contrairement à l’écart-type (si l’on mesure des tailles en cm, l’écart-type sera bien exprimé en cm mais pas la variance).
Série simple
Soit une population dont l'effectif est \(N\) dont les individus ont pour caractères \(x_1,\) \(x_2, ...\) \(x_N.\) Soit \(V\) la variance du caractère observé sur cette population.
\(V\) \(=\) \([(x_1 - \overline{x})^2\) \(+\) \((x_2 - \overline{x})^2\) \(+\) \(...\) \(+\) \((x_N - \overline{x})^2]\) \(=\) \(\frac{1}{N} \sum\limits_{i = 1}^N {({x_i} - \overline {x}^2})\)
Le sigma majuscule \(\Sigma\) se lit « somme de i = 1 à N ». C’est une notation que l’on rencontre souvent dans les formules de statistiques. La variance apparaît donc comme la moyenne des carrés des écarts entre chaque \(x_i\) et leur moyenne.
Habituellement, au lycée, on rédige cette formule avec les données de l’énoncé pour montrer que l’on connaît son cours puis on trouve le résultat avec la fonction statistique de la calculatrice. Avec une TI-82 ou TI-83, le mode d'emploi est en page de série statistique. Parmi les choix proposés, on retient l’écart-type \(\sigma_x.\) Notez bien que les calculatrices ne donnent pas directement la variance (pour cela il faut élever l’écart-type au carré).
Exemple : soit la série statistique \(\{1\,;3\,;3\,;4\,;5\,8\}.\) Quel est son écart-type ?
D’abord, calculons la moyenne. Ici, \(N = 6\) puisque nous avons six observations.
\(\overline{x}\) \(= \frac{1+3+3+4+5+8}{6}\) \(=4\)
Ensuite, posons directement la formule de l’écart-type.
\(\sigma\) \(=\) \(\sqrt{\frac{1}{6}[(1-4)^2+(3-4)^2+...+(8-4)^2}\)
Puis enfin le résultat (avec la calculatrice, sauf si l’on a du temps à perdre), \(\sigma \approx 2,16.\)
Série avec effectifs
Supposons \(k\) valeurs différentes.
\(V\) \(= \frac{1}{N}[n_1(x_1 - \overline{x})^2\) \(+\) \(n_2(x_2 - \overline{x})^2\) \(+...+\) \(n_k(x_k - \overline{x})^2]\) \(=\) \(\frac{1}{N} \sum\limits_{i = 1}^N {n_i({x_i} - \overline {x}})^2\)
Pour bien comprendre qui est quoi…
Pour un exemple de calcul manuel, voir l'exercice sur série statistique.
Notez que si l’on ne dispose pas des effectifs mais des fréquences \(f_i\) la formule devient…
\(V\) \(= f_1(x_1 - \overline{x})^2\) \(+\) \(f_2(x_2 - \overline{x})^2\) \(+...+\) \(f_k(x_k - \overline{x})^2\) \(= \sum\limits_{i = 1}^k {f_i({x_i} - \overline {x}})^2\)
Théorème de König
Il existe une autre technique manuelle pour calculer une variance. C’est la moyenne des carrés moins le carré de la moyenne.
\(V = \frac{1}{N}\sum\limits_{i = 1}^N {{x_i}^2 - \overline {x}}^2\)
Démonstration (qui ne figure pas au programme de seconde). Partons de la formule vue plus haut.
\(V = \frac{1}{N}\sum\limits_{i = 1}^k {n_i({x_i} - \overline {x}})^2\)
Développons l’identité remarquable.
\(V\) \(= \frac{1}{N}\sum\limits_{i = 1}^k {n_i({x_i}^2 - 2x_i\overline {x}} +\overline{x}^2)\)
\(\Leftrightarrow V\) \(= \frac{1}{N}\sum\limits_{i = 1}^k {n_i{x_i}^2}\) \(- \frac{1}{N}\sum\limits_{i = 1}^k {2n_ix_i\overline{x}}\) \(+ \frac{1}{N}\sum\limits_{i = 1}^k {n_i\overline{x}^2}\)
Factorisons pour qu'apparaissent des formules connues.
\(V\) \(= \frac{1}{N}\sum\limits_{i = 1}^k {n_i{x_i}^2}\) \(- 2\overline{x}\sum\limits_{i = 1}^k {\frac{n_i x_i}{N}}\) \(+ \frac{\overline{x}^2}{N}\sum\limits_{i = 1}^k {n_i}\)
\(\Leftrightarrow V\) \(= \frac{1}{N}\sum\limits_{i = 1}^k {n_i{x_i}^2}\) \(- 2(\overline{x} \times \overline{x})\) \(+ \overline{x}^2\)
\(\Leftrightarrow V = \frac{1}{N}\sum\limits_{i = 1}^N {{x_i}^2 - \overline{x}^2}\)
Illustration en page de propriétés de la variance.