Techniques et concepts de l'entreprise, de la finance et de l'économie 
(et fondements mathématiques)

Les indicateurs de dispersion

logo

 

 

 

 

 

 

 

 

 

 

EAM, variance, écart-type et coefficient de variation

On peut définir les statistiques descriptives comme l'art de perdre de nombreux chiffres pour en obtenir quelques autres. Parmi ceux-ci, les indicateurs de dispersion occupent une place de choix...

La dispersion est un élément important de l'analyse d'une série statistique quantitative. C’est la mesure de l’étalement des valeurs d'une variable statistique, de part et d’autre d’une position centrale (moyenne ou très rarement médiane). Cet étalement caractérise un échantillon ou une population et permet des COMPARAISONS : à effectif égal, les âges des élèves d’un lycée sont moins dispersés que ceux des habitants d’un village (NB : pour une première approche de ce thème, par exemple si vous êtes en classe de première, lisez plutôt la page initiation aux paramètres de dispersion).

Il existe plusieurs façons de mesurer cette dispersion. La plus intuitive consiste à calculer la moyenne arithmétique des écarts à la moyenne en valeur absolue. Hélas, cet indicateur ne présente pas des propriétés mathématiques très intéressantes et, de ce fait, il est assez stérile pour construire les outils du statisticien et du prévisionniste. Son nom ? L'écart absolu moyen (EAM ou mean absolute deviation). Il est par exemple utilisé en finance pour mesurer le risque d'un portefeuille (EAM des rentabilités). Comme il est facile à comprendre, il peut être suivi tel quel et constituer un indicateur de tableau de bord dans les différentes directions d'une entreprise.

Variance et écart-type

Vous les attendiez tous : la variance, c’est-à-dire l'espérance des carrés des écarts à la moyenne, et sa racine carrée, l'écart-type, qui est donc la moyenne quadratique des écarts à la moyenne. Il existe aussi une façon plus simple de calculer la variance, développée en page propriétés de la variance : la moyenne des carrés moins le carré de la moyenne.

Ci-dessous, un exemple simple de calcul manuel montre les deux chemins qui mènent à la variance. Voir aussi l'exemple détaillé en bas de page exercice sur série discrète, rédigé à l'attention des élèves de première.

variance

Si l'on calcule la variance d'une variable statistique, on peut aussi bien calculer celle d'une variable aléatoire. Les carrés des écarts sont alors pondérés par des probabilités :

variance

Souvent, les lois de probabilité qui résument les distributions de ces variables se présentent sous forme de fonctions continues. Qu'à cela ne tienne, elles ont aussi leur variance.

variance de fonction continue

E(X) est l’espérance mathématique et f la densité de probabilité. La variance est définie par une intégrale généralisée. Donc, elle n'existe pas si l'intégrale diverge (loi de Cauchy, notamment).

Si la distribution est CENTRÉE, les choses sont encore plus simples puisque la moyenne vaut 0. La variance est donc égale à la moyenne des carrés (voir MSE). Une variable centrée est RÉDUITE lorsqu'elle est divisée par son écart-type.

Petit aparté dont la portée est hyper importante en statistiques : comme la variance est un carré, elle est géométriquement assimilable à une distance euclidienne et peut être décomposée comme une hypoténuse.  Ainsi une régression apparaît comme une décomposition en variance expliquée et variance résiduelle. Dans la mesure où il s’agit du carré d’une distance par rapport à un point (la moyenne), la variance est assimilable à une inertie sans pondération. Les k-means reposent sur la décomposition de cette inertie, intra et extra classes. Dans un échantillon stratifié, la variance d’un estimateur se décompose en intra et extra strate. Entre autres utilités...

Quelques inconvénients

La variance n'est pas un indicateur très robuste aux valeurs aberrantes qui ont plus de poids que les autres puisque ce sont les CARRÉS des distances qui sont utilisés. Par ailleurs, la moyenne qui intervient dans le calcul de la variance est elle-même peu robuste (inconvénient bien connu).

Autre hic : contrairement à la moyenne, variance et écart-type présentent un biais s'ils sont calculés sur un échantillon aléatoire pour être estimés sur toute la population. Intuitivement, on devine que la dispersion globale est sous-estimée sur un échantillon. Du coup, les logiciels calculent l’écart-type comme si c’était le paramètre d’un échantillon (« Std Dev » de la proc MEANS de SAS/BASE, par exemple) mais il arrive qu’il soit calculé comme si c’était celui d’une population totale (écart-type « n ») et on peut obtenir des résultats différents avec des données identiques en passant, par exemple, d’un logiciel à une calculatrice ! Sur Excel, la fonction ECARTYPE correspond au sans biais ; c’est la fonction ECARTYPEP que vous devez utilisez sur une population totale (et VAR.P pour la variance). La variance observée sur l'échantillon est dite empirique.

Il existe plusieurs façons de présenter les écarts-types. Celle qui s’écrit et se comprend le plus facilement a pour expression :

écart-type

L’écart-type sans biais :

écart-type sans biais

Donc, si vous calculez sur Excel la dispersion des rémunérations sur l’effectif total de votre société, il faut en toute rigueur utiliser ECARTYPEP (la différence avec ECARTYPE ne sera toutefois visible que si vous travaillez dans une PME !).

Un moyen de tester la qualité des algorithmes de votre logiciel consiste à calculer l’écart-type empirique entre deux nombres proches, mettons 1 et 2, puis à ajouter des puissances de 10 (1 000 001 et 1 000 002...) de plus en plus élevées et à vérifier que le résultat reste le même. Il arrive un moment où le logiciel finit par donner zéro…

C'est l'écart-type biaisé qui est utilisé dans les formules de statistique descriptive, par exemple celle du coefficient de régression linéaire ou du coefficient de variation (CV).

Le coefficient de variation (CV)

Le CV, justement, est l’écart-type divisé par la moyenne. Indicateur sans dimension, il permet des comparaisons lorsque les unités de mesure diffèrent. L'intérêt est évident : si  une multinationale cherche à connaître la dispersion des rémunérations dans ses filiales indienne et française, elle ne comparera pas un écart-type en euros avec un écart-type en roupies. Un autre intérêt est d'évaluer la qualité d'une prévision : si une série chronologique présente un fort coefficient de variation (supérieur à 1), les prévisions risquent de ne pas être très fiables.

La série 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 a pour moyenne 5,5, pour écart-type empirique 2,87, pour écart-type sans biais 3,03 et pour EAM 2,5. L’écart-type est supérieur à l’EAM puisqu'il retient les CARRÉS des écarts. Les valeurs éloignées de la moyenne, notamment 1 et 10, ont donc un poids plus important que les valeurs 5 et 6 qui en sont proches. Si vous ignorez quel écart-type est calculé par vos logiciels ou votre calculatrice, entrez ces chiffres, par curiosité…

Enfin, les quantiles permettent eux aussi de juger la dispersion d’une distribution, particulièrement lorsque celle-ci n'est pas symétrique.

 

clones

 

© JY Baudot - Droits d'auteur protégés