EAM, variance, écart-type et coefficient de variation
Je vous vois venir : vous vous demandez quel intérêt il peut y avoir à présenter des indicateurs connus depuis le lycée. Patience, il se peut tout de même que cette page vous apprenne quelques bricoles… La dispersion est un élément fondamental, si ce n’est le plus important, d’une analyse statistique. C’est l’étalement des valeurs de part et d’autre d’une position centrale (moyenne, médiane, mode). Cet étalement peut caractériser un échantillon ou une population, comme il peut être comparé entre deux ou plusieurs échantillons : à effectif égal, les âges des élèves d’un lycée sont moins dispersés que ceux des habitants d’un village. Il existe plusieurs façons de mesurer cette dispersion. L’idée la plus simple consiste à additionner les écarts à la moyenne, en valeur absolue, et à en faire une moyenne arithmétique. Cet indicateur ne présente pas des propriétés mathématiques très intéressantes et, de ce fait, il est assez stérile pour construire les outils du data miner ou du prévisionniste. Son nom ? L'écart absolu moyen (EAM ou mean absolute deviation). Il est notamment utilisé en gestion des stocks et parfois en finance pour mesurer le risque d'un portefeuille (EAM des rentabilités). Comme il est extrêmement simple à comprendre, il peut être suivi tel quel et constituer un indicateur de tableau de bord pour diverses fonctions de l’entreprise. Vous l’attendez tous : la variance, c’est-à-dire la moyenne des carrés moins le carré de la moyenne. Sans oublier sa racine carrée, l'écart-type (standard deviation), qui est donc la moyenne quadratique des écarts à la moyenne. Si vous débutez en statistiques, je vous invite à jeter un oeil en page propriétés de la variance. En entreprise on analyse souvent des variables discrètes, mais une loi de probabilité qui se présente sous forme d’une fonction continue a aussi sa variance. C’est une intégrale :
E(X) est l’espérance mathématique et f(x) la densité de probabilité. Pour mémoire, il existe une loi de probabilité qui n’a ni moyenne ni variance et c’est la loi de Cauchy (= de Lorenz, surtout utile aux physiciens). Ses queues de distribution sont si importantes que les valeurs éloignées élevées au carré rendent l’intégrale infinie et la loi des grands nombres ne s’applique pas. Cette loi atypique présente tout de même une médiane. Mais nous nous égarons… Si l’on a centré la distribution, les choses sont encore plus simples puisque la moyenne vaut 0. La variance est donc égale à la moyenne des carrés (voir MSE). Une variance étant un carré assimilable à une distance euclidienne, elle peut être décomposée comme une hypoténuse. Ainsi une régression apparaît comme une décomposition en variance expliquée et variance résiduelle. Dans la mesure où il s’agit du carré d’une distance par rapport à un point (la moyenne), la variance est assimilable à l’inertie. Les k-means reposent sur la décomposition de cette inertie, intra et extra classes. Dans un échantillon stratifié, la variance d’un estimateur se décompose en intra et extra strate. Etc. La variance n'est pas un indicateur très robuste aux valeurs aberrantes. Non seulement ces valeurs ont d'autant plus de poids que ce sont les CARRÉS des distances qui sont utilisés, mais par dessus le marché elles éloignent la moyenne des valeurs non extrêmes. Autre hic, avec la variance et l’écart-type, c’est que contrairement à la moyenne, ils présentent un petit biais lorsqu’on les calcule sur un échantillon dans le but de les estimer sur la population totale. Intuitivement, on perçoit très bien qu’on sous-estime la dispersion globale en n’observant qu’un échantillon. Du coup, les logiciels calculent l’écart-type comme si c’était le paramètre d’un échantillon (écart-type sans biais ou « n – 1 ») mais il arrive qu’il soit calculé comme si c’était le paramètre d’une population totale (écart-type « n »). Ceci explique que sur certains calculs, vous pouvez avoir des résultats différents avec des données identiques en passant par exemple d’un logiciel à une calculatrice ! Sur Excel, la fonction ECARTYPE correspond au sans biais ; c’est la fonction ECARTYPEP que vous devez utilisez sur une population totale (et VAR.P pour la variance). La proc MEANS de SAS/BASE donne le « Std Dev » sans biais. J’ai vu des dizaines de façons de présenter les écarts-types. Celles qui s’écrivent et se comprennent le plus facilement s’écrivent comme suit :
Donc, si vous calculez sur Excel la dispersion des rémunérations sur l’effectif total de votre société, il faut en toute rigueur utiliser ECARTYPEP (la différence avec ECARTYPE ne sera visible que si vous travaillez dans une PME !) C'est l'écart-type biaisé qui est utilisé dans les formules de statistique descriptive, par exemple celle du coefficient de régression linéaire ou du coefficient de variation. Le coefficient de variation (CV), justement, est l’écart-type divisé par la moyenne. Indicateur sans dimension, il permet des comparaisons même lorsque les unités de mesure diffèrent. C’est assez évident : si une multinationale cherche à connaître la dispersion des rémunérations dans ses filiales indienne et française, elle ne comparera pas un écart-type en euros avec un écart-type en roupies. En revanche, les écarts-types rapportés à une rémunération moyenne de même unité sont de bons indicateurs. La série 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 a pour moyenne 5,5, pour écart-type d'échantillon 2,87, pour écart-type sans biais 3,03 et pour EAM 2,5. Il est logique que l’écart-type soit supérieur à l’EAM dans la mesure où il retient les CARRÉS des écarts. Les valeurs éloignées de la moyenne, notamment 1 et 10, ont donc un poids plus important que les valeurs 5 et 6 qui en sont proches. Si vous ignorez quel écart-type est calculé par vos logiciels ou votre calculatrice, entrez ces chiffres, par curiosité… Un moyen un peu vicieux de tester la qualité des algorithmes de votre logiciel consiste à calculer l’écart-type empirique entre deux nombres peu différents, par exemple 1 et 2, puis à ajouter des puissances de 10 (par exemple 1 000 001 et 1 000 002) de plus en plus élevées et à vérifier que le résultat reste le même. En principe, il arrive un niveau où le logiciel finit par donner zéro… (l’idée m’est venue par G. Mélard, Méthodes de prévision à court terme, SMA 2007, p. 47). Les quantiles permettent eux aussi de juger la dispersion d’une distribution, particulièrement lorsque celle-ci n'est pas symétrique.
|






