mèche perceuse

 

 

 

 

 

 

 

 

 

 

 

 EAM, variance, écart-type et coefficient de variation

Je peux définir les statistiques descriptives comme l'art de perdre de nombreux chiffres pour en obtenir quelques autres. Parmi ceux-ci, les indicateurs de dispersion occupent une place de choix...

La dispersion est un élément fondamental, si ce n’est le plus important, de l'analyse descriptive d'une distribution à une variable. C’est l’étalement des valeurs d'une variable statistique, de part et d’autre d’une position centrale (moyenne, voire médiane). Cet étalement peut caractériser un échantillon ou une population, comme il peut être comparé entre deux ou plusieurs échantillons : à effectif égal, les âges des élèves d’un lycée sont moins dispersés que ceux des habitants d’un village.

Il existe plusieurs façons de mesurer cette dispersion. La plus simple consiste à additionner les écarts à la moyenne, en valeur absolue, et à en faire une moyenne arithmétique. Cet indicateur ne présente pas des propriétés mathématiques très intéressantes et, de ce fait, il est assez stérile pour construire les outils du data miner ou du prévisionniste. Son nom ? L'écart absolu moyen (EAM ou mean absolute deviation). Il est par exemple utilisé en finance pour mesurer le risque d'un portefeuille (EAM des rentabilités). Comme il est facile à comprendre, il peut être suivi tel quel et constituer un indicateur de tableau de bord pour diverses fonctions de l’entreprise.

Variance et écart-type

Vous les attendiez tous : la variance, c’est-à-dire l'espérance des CARRÉS des écarts à la moyenne, et sa racine carrée, l'écart-type (standard deviation), qui est donc la moyenne quadratique des écarts à la moyenne. Si vous débutez en statistiques, je vous invite à jeter un oeil en page propriétés de la variance ou l'on trouve une autre façon de la calculer : la moyenne des carrés moins le carré de la moyenne. Ci-dessous, un exemple simple de calcul manuel montre les deux chemins qui mènent à la variance.

variance

En l'occurrence, il s'agit d'une variance sur observations mais il est très fréquent d'en calculer une sur variable aléatoire. Les carrés des écarts sont alors pondérés par des probabilités :

variance

Souvent, les lois de probabilité qui résument les distributions de ces variables se présentent sous forme de fonctions continues. Qu'à cela ne tienne, ces fonctions ont aussi leur variance. C’est une intégrale :

variance d efonction continue

E(X) est l’espérance mathématique (moyenne pondérée par des probabilités) et f(x) la densité de probabilité. Remarquons que la moyenne devient espérance mais que la variance ne change pas de nom.

Si l’on a centré la distribution, les choses sont encore plus simples puisque la moyenne vaut 0. La variance est donc égale à la moyenne des carrés (voir MSE).

Petit aparté dont la portée est hyper importante en statistiques : comme la variance est un carré, elle est géométriquement assimilable à une distance euclidienne et peut être décomposée comme une hypoténuse.  Ainsi une régression apparaît comme une décomposition en variance expliquée et variance résiduelle. Dans la mesure où il s’agit du carré d’une distance par rapport à un point (la moyenne), la variance est assimilable à l’inertie. Les k-means reposent sur la décomposition de cette inertie, intra et extra classes. Dans un échantillon stratifié, la variance d’un estimateur se décompose en intra et extra strate. Etc.

Quelques inconvénients...

La variance n'est pas un indicateur très robuste aux valeurs aberrantes. D'une part ces outliers ont plus de poids que les autres puisque ce sont les CARRÉS des distances qui sont utilisés, d'autre part la moyenne qui intervient dans le calcul de la variance est elle-même faussée.

Autre hic, avec la variance et l’écart-type, c’est que contrairement à la moyenne ils présentent un petit biais quand on les calcule sur un échantillon aléatoire pour les estimer sur toute la population. Intuitivement, on perçoit bien qu’on sous-estime la dispersion globale en n’observant qu’un échantillon. Du coup, les logiciels calculent l’écart-type comme si c’était le paramètre d’un échantillon (« Std Dev » de la proc MEANS de SAS/BASE, par exemple) mais il arrive qu’il soit calculé comme si c’était celui d’une population totale (écart-type « n ») ; du coup, on peut obtenir des résultats différents avec des données identiques en passant par exemple d’un logiciel à une calculatrice ! Sur Excel, la fonction ECARTYPE correspond au sans biais ; c’est la fonction ECARTYPEP que vous devez utilisez sur une population totale (et VAR.P pour la variance).

J’ai vu des dizaines de façons de présenter les écarts-types (σ). Celles qui s’écrivent et se comprennent le plus facilement s’écrivent comme suit :

écarts-types

Donc, si vous calculez sur Excel la dispersion des rémunérations sur l’effectif total de votre société, il faut en toute rigueur utiliser ECARTYPEP (la différence avec ECARTYPE ne sera visible que si vous travaillez dans une PME !).

Un moyen un peu vicieux de tester la qualité des algorithmes de votre logiciel consiste à calculer l’écart-type empirique entre deux nombres peu différents, par exemple 1 et 2, puis à ajouter des puissances de 10 (par exemple 1 000 001 et 1 000 002) de plus en plus élevées et à vérifier que le résultat reste le même. En principe, il arrive un niveau où le logiciel finit par donner zéro… (l’idée m’est venue par G. Mélard, Méthodes de prévision à court terme, SMA 2007, p. 47).

C'est l'écart-type biaisé qui est utilisé dans les formules de statistique descriptive, par exemple celle du coefficient de régression linéaire ou du coefficient de variation.

Le CV

Le coefficient de variation (CV), justement, est l’écart-type divisé par la moyenne. Indicateur sans dimension, il permet des comparaisons même lorsque les unités de mesure diffèrent. C’est assez évident : si  une multinationale cherche à connaître la dispersion des rémunérations dans ses filiales indienne et française, elle ne comparera pas un écart-type en euros avec un écart-type en roupies. En revanche, les écarts-types rapportés à une rémunération moyenne de même unité sont de bons indicateurs.

La série 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 a pour moyenne 5,5, pour écart-type d'échantillon 2,87, pour écart-type sans biais 3,03 et pour EAM 2,5. Il est logique que l’écart-type soit supérieur à l’EAM dans la mesure où il retient les CARRÉS des écarts. Les valeurs éloignées de la moyenne, notamment 1 et 10, ont donc un poids plus important que les valeurs 5 et 6 qui en sont proches. Si vous ignorez quel écart-type est calculé par vos logiciels ou votre calculatrice, entrez ces chiffres, par curiosité…

Pour finir, les quantiles permettent eux aussi de juger la dispersion d’une distribution, particulièrement lorsque celle-ci n'est pas symétrique.

 

clones

plus de livres (France)    plus de livres (Canada)