Techniques et concepts de l'entreprise, de la finance et de l'économie 
(et fondements mathématiques)

La covariance

logo

 

 

 

 

 

 

 

 

 

 

Covariance et matrice de variances-covariances

La covariance n’est pas un indicateur final : on ne la retrouve pas sur le tableau de bord du manager. Elle constitue toutefois un rouage essentiel de toute la machinerie statistique.

La covariance mesure la liaison linéaire qui peut exister entre un couple de variables statistiques ou un couple de variables aléatoires quantitatives.

Formules

Afin de respecter les écritures habituellement en vigueur, distinguons les deux types de variables.

Couple de variables statistiques X et Y : on l'écrit Cov(X,Y) ou σxy et, pour une population N, les formules sont les suivantes...

Si l'on dispose de données en liste (individuelles) :

1ère formule

La parenté avec la variance est évidente. D'ailleurs, la covariance d’une variable avec elle-même (autocovariance) est tout simplement la variance. Cov(X,X) = V(X). Donc, faisons un parallèle avec le théorème de König : la covariance est la moyenne du produit des valeurs de deux variables moins le produit des deux moyennes.

2ème formule

Si les données apparaissent sous forme de tableau de contingence :

3ème formule

À l'instar de la variance, il existe un biais si l'on calcule la covariance sur un échantillon aléatoire de taille n dans le but de l'extrapoler à la population. On doit alors calculer une covariance sans biais :

covariance sans biais

Couples de variables aléatoires X et Y : Cov(X,Y) = E(XY) – [E(X) × E(Y)]

Interprétation

Si les deux variables sont indépendantes, la covariance est nulle. Mais il peut exister une dépendance non linéaire qui se traduit également par une covariance nulle. Donc, attention aux conclusions hâtives...

Si deux variables évoluent généralement dans le même sens, la covariance est de signe positif (exemple : température extérieure et consommation de crèmes glacées). Si elles évoluent dans le sens contraire, la covariance est négative (exemple : température extérieure et consommation de chauffage).

Emploi

Si la covariance n’est pas un indicateur final, c’est parce qu’elle mesure le lien de variables qui ne sont pas nécessairement comptabilisées dans la même unité. Pour revenir à notre exemple, X peut être mesurée en degrés et Y en nombre de glaces. Présentée telle quelle, la covariance ne signifie rien. Sauf si… Divisée par le produit des écarts-types, elle est alors standardisée et on peut la situer sur une échelle qui signifie quelque chose : elle s’est métamorphosée en coefficient de corrélation linéaire.

Toutefois, une covariance ne s’applique pas forcément à toutes les valeurs, ce qui permet de calculer, même sur une simple série chronologique, des covariances entre certains groupes de valeurs (exemple du corrélogramme).

Propriétés

Enfin, la covariance possède des propriétés importantes mais qui passent inaperçues dans la vie quotidienne :

Cov(X,Y) = Cov(Y,X)

Cov(X + constante,Y) = Cov(X,Y)

Cov(aX,Y) = a Cov(X,Y)

Une autre propriété est la simple application d'une identité remarquable :

variance d'une somme

La matrice des variances-covariances

Maintenant, situons-nous dans le cas de plusieurs variables. On peut alors calculer les covariances de chaque couple de variables puis les indiquer dans un tableau carré, et symétrique puisque Cov(X,Y) = Cov(Y,X). En diagonale, on trouve évidemment les variances.

Cette matrice travaille en coulisses et si un logiciel vous la restitue, elle ne sera pas d’une utilité vitale. Lorsqu’elle est réduite (écarts-types = 1), elle est égale à la matrice des corrélations et devient davantage opérationnelle.

La matrice de variances-covariances intervient dans l’établissement de plusieurs méthodes d’analyses multivariées assez proches les unes des autres.

Cette matrice, ou plutôt son inverse, permet de déterminer les coefficients de régression multiple lorsqu’on la multiplie à la matrice colonne des covariances entre les Xi et les Yj. La matrice de variances-covariances des résidus, quant à elle, doit être égale à la matrice unité (des 0 partout sauf des 1 en diagonale) si les conditions de décorrélation et d’homoscédasticité sont parfaitement remplies.

L’AFD est une régression multiple particulière et se construit donc aussi sur la décomposition de la matrice des variances-covariances (intra-classes et entre les barycentres de classes).

La matrice des variances-covariances est utilisée dans le cadre des ACP non normées alors que la matrice des corrélations l’est, fort logiquement, dans le cadre des ACP normées.

 

troupeau

 

© JY Baudot - Droits d'auteur protégés