Le calcul de la covariance

Exemple de calcul de covariance

La covariance mesure le lien linéaire qui peut exister entre deux caractères statistiques (ou deux variables aléatoires mais ci-dessous nous nous situerons dans une problématique de statistiques descriptives). Elle n’a pas beaucoup de signification en elle-même puisqu’elle dépend des unités de mesure. Au contraire, elle est très parlante lorsqu’elle est normalisée. Elle se métamorphose alors en un superbe coefficient de corrélation.

On calcule une covariance pour des données en liste comme pour des données groupées en tableau. L’exemple que nous allons étudier reprend des données en liste. Il s’agit d’un calcul « manuel » (en fait, avec Excel) qui démystifiera le résultat qui apparaît en un clic sur votre écran…

 

Rappel

Soit \(x\) et \(y\) deux variables statistiques et \(N\) l’effectif de la population étudiée.

Si les caractères sont statistiques, on note la covariance \(σ_{xy}\), \(Cov_{xy}\) ou d’une façon proche de celles-ci (aucune normalisation, hélas !).

Nous nommerons \(\mu_x\) la moyenne de \(x\) et \(\mu_y\) la moyenne de \(y\).

\[{\sigma _{xy}} = \frac{1}{N}\sum\limits_{i = 1}^N {\left( {{x_i} - {\mu _x}} \right)\left( {{y_i} - {\mu _y}} \right)} \]

 

Exemple

Yosif possède douze vaches. Durant un an, il a noté la quantité de lait que chacune d’elles a produit (en litres). Il a aussi pesé chaque vache. Il souhaite savoir si plus une vache est grosse plus elle produit de lait.

Cette étude ne sera conduite ici dans son intégralité, bien qu’elle ne soit pas très longue à réaliser. Nous en resterons aux premières étapes et notamment au calcul de la covariance (en pratique, il serait suivi de celui du coefficient de corrélation).

Yosif ne possédant pas d’ordinateur, il en est quitte pour tout calculer à la main…

Les données sont les suivantes :

   Litres de lait  Poids
Vache 1 2 984 684
Vache 2 3 104 720
Vache 3 3 002 706
Vache 4 3 051 708
Vache 5 2 910 680
Vache 6 3 060 735
Vache 7 3 008 721
Vache 8 2 999 708
Vache 9 3 081 724
Vache 10 3 145 725
Vache 11 3 170 742
Vache 12 3 076 711
TOTAL 36 590 8 564
Effectif 12 12
Moyenne 3 049,17 713,67

N’ayant ni ordinateur ni calculatrice, vous remarquerez qu’il a calculé le rendement moyen et le poids moyen à la main…

À présent, ce tableau doit être complété en retirant la moyenne \(\mu_x\) à chaque valeur \(x_i\) et \(\mu_y\) à chaque valeur \(y_i.\) Par exemple, -65,17 est obtenu par l’opération \(2\,984 - 3\,049,17.\)

Les deux colonnes obtenues montrent deux séries d’écarts à la moyenne. Nous les multiplions entre elles.

Par exemple, \((-65,17) \times (-29,67) = 1\,933,28.\) Remarquez que ces produits peuvent être très élevés pour les individus qui s’écartent beaucoup de la moyenne.

Yosif fait ensuite la somme de ces douze produits. Il obtient 12 298. En divisant ce montant par 12, il obtient un montant moyen de 1 024,81. C’est la covariance.

Telle quelle, cette grandeur n’est pas facile à analyser. Tout au plus remarque-t-on qu’elle est positive, c’est-à-dire que les deux critères varient globalement dans le même sens (en règle générale, plus la vache est grosse, plus elle produit du lait).

Note : il existe une autre façon de calculer une covariance (voir la page de calcul des paramètres d’une régression simple). Elle est plus rapide mais ne montre pas, comme ici, la mécanique du calcul.

 

Avec Excel

Bien sûr, avec Excel vous pouvez obtenir la covariance directement. Pour une population, utilisez la fonction =COVARIANCE.PEARSON puis entrez la sélection de cellules de la première liste, puis un point-virgule, puis la seconde liste.

Une seconde fonction est disponible : =COVARIANCE.STANDARD. Elle restitue la covariance d’échantillon, c’est-à-dire la division du produit des écarts aux moyennes par \(n-1\) (dans notre exemple, 1 118, soit 12 298 divisé par 11).