Covariance : exemple d'un calcul pas à pas

Exemple de calcul de covariance

La covariance mesure le lien linéaire qui peut exister entre deux caractères statistiques (ou deux variables aléatoires mais ci-dessous nous nous situerons dans une problématique de statistiques descriptives). Elle n’a pas beaucoup de signification en elle-même puisqu’elle dépend des unités de mesure. Au contraire, elle est très parlante lorsqu’elle est normalisée. Elle se métamorphose alors en un superbe coefficient de corrélation.

On calcule une covariance pour des données en liste comme pour des données groupées en tableau. L’exemple que nous allons étudier reprend des données en liste. Il s’agit d’un calcul « manuel » (en fait, avec Excel) qui démystifiera le résultat qui apparaît en un clic sur votre écran…

Rappel

Soit \(x\) et \(y\) deux variables statistiques et \(N\) l’effectif de la population étudiée.

Si les caractères sont statistiques, on note la covariance \(σ_{xy}\), \(Cov_{xy}\) ou d’une façon proche de celles-ci (aucune normalisation, hélas !).

Nous nommerons \(\mu_x\) la moyenne de \(x\) et \(\mu_y\) la moyenne de \(y\).

\[{\sigma _{xy}} = \frac{1}{N}\sum\limits_{i = 1}^N {\left( {{x_i} - {\mu _x}} \right)\left( {{y_i} - {\mu _y}} \right)} \]

Exemple

Yosif possède douze vaches. Durant un an, il a noté la quantité de lait que chacune d’elles a produit (en litres). Il a aussi pesé chaque vache. Il souhaite savoir si plus une vache est grosse plus elle produit de lait.

vache

Cette étude ne sera conduite ici dans son intégralité, bien qu’elle ne soit pas très longue à réaliser. Nous en resterons aux premières étapes et notamment au calcul de la covariance (en pratique, il serait suivi de celui du coefficient de corrélation).

Yosif ne possédant pas d’ordinateur, il en est quitte pour tout calculer à la main…

Les données sont les suivantes :

	Litres de lait	Poids
Vache 1	2 984	684
Vache 2	3 104	720
Vache 3	3 002	706
Vache 4	3 051	708
Vache 5	2 910	680
Vache 6	3 060	735
Vache 7	3 008	721
Vache 8	2 999	708
Vache 9	3 081	724
Vache 10	3 145	725
Vache 11	3 170	742
Vache 12	3 076	711
TOTAL	36 590	8 564
Effectif	12	12
Moyenne	3 049,17	713,67

N’ayant ni ordinateur ni calculatrice, vous remarquerez qu’il a calculé le rendement moyen et le poids moyen à la main (le calcul avec R est réalisé en page de data frame).

À présent, ce tableau doit être complété en retirant la moyenne \(\mu_x\) à chaque valeur \(x_i\) et \(\mu_y\) à chaque valeur \(y_i.\) Par exemple, -65,17 est obtenu par l’opération \(2\,984 - 3\,049,17.\)

tableau

Les deux colonnes obtenues montrent deux séries d’écarts à la moyenne. Nous les multiplions entre elles.

tableau

Par exemple, \((-65,17) \times (-29,67) = 1\,933,28.\) Remarquez que ces produits peuvent être très élevés pour les individus qui s’écartent beaucoup de la moyenne.

Yosif fait ensuite la somme de ces douze produits. Il obtient 12 298. En divisant ce montant par 12, il obtient un montant moyen de 1 024,81. C’est la covariance.

vaches

Telle quelle, cette grandeur n’est pas facile à analyser. Tout au plus remarque-t-on qu’elle est positive, c’est-à-dire que les deux critères varient globalement dans le même sens (en règle générale, plus la vache est grosse, plus elle produit du lait).

Note : il existe une autre façon de calculer une covariance (voir la page de calcul des paramètres d’une régression simple). Elle est plus rapide mais ne montre pas, comme ici, la mécanique du calcul.

Avec Excel

Bien sûr, avec Excel vous pouvez obtenir la covariance directement. Pour une population, utilisez la fonction =COVARIANCE.PEARSON puis entrez la sélection de cellules de la première liste, puis un point-virgule, puis la seconde liste.

Une seconde fonction est disponible : =COVARIANCE.STANDARD. Elle restitue la covariance d’échantillon, c’est-à-dire la division du produit des écarts aux moyennes par \(n-1\) (dans notre exemple, 1 118, soit 12 298 divisé par 11).

covariance