Analyse d'une dispersion
La forte dispersion d’une série statistique s’explique par certaines observations éloignées de la moyenne. Et comme en matière de statistiques tout est mesuré (ou probabilisé), nous pouvons chiffrer la contribution des différentes observations à la variance. À partir d’un exemple, nous montrerons comment faire avec des tableaux, puis avec un petit programme en R.
Calcul manuel
On s’intéresse au taux de remplissage d’une ligne de métro au départ d'une station au cours d’une journée. 120 rames sont observées.
Remplissage | Effectif |
\(0 - 20\%\) | 1 |
\(20\% - 40\%\) | 3 |
\(40\% - 50\%\) | 11 |
\(50\% - 60\%\) | 21 |
\(60\% - 70\%\) | 35 |
\(70\% - 80\%\) | 24 |
\(80\% - 90\%\) | 12 |
\(90\% - 100\%\) | 6 |
\(100\% - 110\%\) | 4 |
\(110\% - 120\%\) | 3 |
La première étape consiste à calculer la moyenne pondérée. Ce qui suppose dans cet exemple une étape préliminaire, le calcul des centres de classe.
Centres de classes | Effectif | \(n_i \times x_i\) |
10 | 1 | 10 |
30 | 3 | 90 |
45 | 11 | 495 |
55 | 21 | 1 155 |
65 | 35 | 2 275 |
75 | 24 | 1 800 |
85 | 12 | 1 020 |
95 | 6 | 570 |
105 | 4 | 420 |
115 | 3 | 345 |
Somme | 120 | 8 180 |
Moyenne = \(\displaystyle{\frac{8\,180}{120} \approx 68,167}.\)
Pour des raisons de mise en page et peut-être de clarté (à vous de voir !), nous présentons les différentes étapes sur des petits tableaux mais tout l’exercice peut être réalisé avec un seul.
Au lieu de calculer la moyenne à partir de la somme de la dernière colonne au carré comme il est d’usage (voir les propriétés de la variance), nous allons calculer les fréquences des effectifs puis appliquer chacune d'elles à chaque ligne.
Centres de classes | Effectif | Fréquence |
10 | 1 | 0,008 |
30 | 3 | 0,025 |
45 | 11 | 0,092 |
55 | 21 | 0,175 |
65 | 35 | 0,292 |
75 | 24 | 0,200 |
85 | 12 | 0,100 |
95 | 6 | 0,050 |
105 | 4 | 0,033 |
115 | 3 | 0,025 |
Somme | 120 | 1 |
Multiplions-les avec les carrés des écarts à la moyenne.
Centres | Fréq. | \((x_i - m)^2\) | Variance |
10 | 0,008 | 3 383,361 | 28,195 |
30 | 0,025 | 1 456,694 | 36,417 |
45 | 0,092 | 536,694 | 49,197 |
55 | 0,175 | 173,361 | 30,338 |
65 | 0,292 | 10,028 | 2,925 |
75 | 0,200 | 46,694 | 9,339 |
85 | 0,100 | 283,361 | 28,336 |
95 | 0,050 | 720,028 | 36,001 |
105 | 0,033 | 1 356,694 | 45,223 |
115 | 0,025 | 2 193,361 | 54,834 |
Somme | 1 | 320,806 |
La dernière colonne est celle des contributions absolues à la variance, qui s'établit à 320,806. Mais les contributions relatives (proportion de chaque ligne par rapport à 320,806) sont plus parlantes. Pour ce dernier tableau, nous avons repris les classes de l’énoncé.
Remplissage | Contribution relative à la variance |
\(0 - 20\%\) | \(8,79\%\) |
\(20\% - 40\%\) | \(11,35\%\) |
\(40\% - 50\%\) | \(15,34\%\) |
\(50\% - 60\%\) | \(9,46\%\) |
\(60\% - 70\%\) | \(0,91\%\) |
\(70\% - 80\%\) | \(2,91\%\) |
\(80\% - 90\%\) | \(8,83\%\) |
\(90\% - 100\%\) | \(11,22\%\) |
\(100\% - 110\%\) | \(14,10\%\) |
\(110\% - 120\%\) | \(17,09\%\) |
Comme on peut s’y attendre, les taux de remplissage proches de la moyenne de \(68\%\) contribuent peu à expliquer la dispersion. Celle-ci est à rechercher du côté des taux bas et surtout des taux élevés, ce qui est logique puisqu’il y a plus de rames de métro bondées que de rames presque vides.
Programmation avec R
Retrouvons ces taux avec un petit programme écrit en R. Nous partirons des centres de classes déjà déterminés. Niveau de difficulté : débutant (nous nous contenterons d’obtenir les contributions relatives, sans présentation dans un tableau ou un graphique).
# Données sous forme de vecteurs
remplissage <- c(10, 30, 45, 55, 65, 75, 85, 95, 105, 115)
effectif <- c(1, 3, 11, 21, 35, 24, 12, 6, 4, 3)
# Calcul des fréquences
freq <- c(effectif/sum(effectif))
# Calcul de la moyenne pondérée
moy <- sum(remplissage * freq)
# Ecarts à la moyenne puis carrés
ecarts <- remplissage - moy
ecarts_carre <- ecarts * ecarts
# Contributions absolues puis variance
absolues <- ecarts_carre * freq
variance <- sum(absolues)
# Contributions relatives en pourcentages
relatives <- (absolues/variance)*100
relatives
Affichage (qui risque d’être un peu bancal si vous le lisez sur un téléphone mobile) :
[1] 8.7887119 11.3518486 15.3354547 9.4568794 0.9116951
[6] 2.9110746 8.8327994 11.2221837 14.0967472 17.0926054