La corrélation partielle

Coefficients de corrélation partielle

Au cours des dernières décennies, le nombre de fast-foods a augmenté. Le niveau moyen d’études aussi. Donc, sandwiches et hamburgers rendent intelligent…

hamburgers

Hum… Pas si vite !

 

Problématique

Ce qui peut sembler statistiquement lié n’a souvent aucun rapport direct. Mais une corrélation peut exister avec un autre facteur qui peut être le temps, le progrès technique, l’âge de votre belle-sœur…

C’est pourquoi une régression linéaire simple peut conduire à des conclusions hâtives.

Il est donc important de vérifier si une liaison est réelle ou factice. Les statistiques ne font toutefois pas de miracle. Pour savoir si, derrière une liaison entre \(x\) et \(y\) se cache en fait une liaison entre \(x\) et \(z\) et une autre entre \(y\) et \(z\), il faut d’abord avoir l’idée d’intégrer cette variable \(z\) avant de recourir à la corrélation partielle.

 

Calcul

Note préalable : la technique s'utilise aussi bien dans le cadre d'une corrélation statistique que dans celui d'une corrélation stochastique.

Pour calculer le coefficient de corrélation partielle, il faut déterminer le coefficient de corrélation entre \(x\) et \(z\), celui entre \(y\) et \(z\) et celui entre \(x\) et \(y\). Armés de ces trois coefficients, nous allons utiliser la formule magique qui, si elle ne change pas le plomb en or, peut au moins changer une idée fausse en belle découverte :

\[{r_{xy,z}} = \frac{{{r_{xy}} - {r_{xz}} \times {r_{yz}}}}{{\sqrt {1 - r_{xz}^2} \times \sqrt {1 - r_{yz}^2} }}\]

Bien sûr, dans un livre sérieux vous trouverez sa démonstration et la magie s’effacera… Le principe, c’est de calculer la corrélation entre \(x\) et \(y\) tout en considérant \(z\) constant et pour cela, on retire de \({r_{xy}}\) le double effet des corrélations qu’entretiennent \(x\) et \(y\) avec \(z\). En observant la formule, on voit bien que si ce double effet est négligeable, on retombe sur un coefficient de corrélation partielle égal à \({r_{xy}}\). Dit autrement, on cherche une corrélation entre les résidus d’une régression de \(x\) sur \(z\) et une régression de \(y\) sur \(z\).

Pourquoi avoir privilégié \(z\) plutôt qu’une autre variable ? Il faut se référer à la matrice des corrélations que votre logiciel vous a aimablement fournie si vous avez entré plusieurs variables candidates (utilisez bien la matrice des corrélations et non celle des coefficients de corrélation obtenue dans le cadre d’une régression multiple). Si cette matrice montre qu’une variable candidate présente une bonne corrélation à la fois avec la variable explicative initialement retenue et avec la variable à expliquer, une corrélation partielle mérite peut-être d’être conduite…

Quand le coefficient est proche de 0, c’est que la corrélation qu’on avait cru déceler entre \(x\) et \(y\) est en fait due à \(z\).

 

Un exemple (sans valeur pratique)

Nous souhaitons réaliser une régression linéaire simple afin de vérifier si le cours de l’action Total influence celle de Renault. Les valeurs reprises ci-dessous sont celles des premières clôtures de chaque mois calendaire. Les dates se situent entre novembre 2008 et janvier 2010 mais l’ordre chronologique n’intervient pas pour répondre à notre question.

tableau (exemple)

La corrélation entre les cours des actions Renault et Total se traduit par un coefficient de 0,67. La question qui se pose : cette liaison est-elle directe ou liée à l’évolution de l’indice CAC 40 ? (Note : il est un peu abusif de considérer le CAC comme variable « exogène » dans la mesure où il est partiellement déterminé par les cours de Total et Renault mais, encore une fois, il s’agit juste ici de décortiquer un mécanisme…).

Voici la matrice des corrélations telle qu’elle est fournie par l’utilitaire d’analyse d’Excel, outil « Analyse de corrélation ».

matrice des corrélations

On dirait bien que nous sommes sur la bonne piste… Poursuivons.

Exécutons une corrélation partielle avec SPSS (Analyse → Correlate → Partial…) en plaçant Renault et Total dans le champ Variables et CAC dans le champ Controlling for.

sortie spss de corrélation partielle

Cette fois-ci, nous observons une corrélation très faible et même négative (-0,371). Conclusion : l’apparente corrélation entre les cours des actions Renault et Total cache tout simplement une corrélation commune avec leur indice de référence, le CAC 40. La corrélation des deux titres « sachant que le CAC s’établit à… » est quasi nulle. Vous pouvez vérifier que la formule donne bien -0,371 si le cœur vous en dit…

Quel crédit accorder à ce coefficient ? Pour le savoir, observons les autres informations fournies par SPSS (ou par les logiciels concurrents qui les donnent également…).  Il suit une loi de Student à 12 degrés de liberté, soit quinze observations moins une variable fixée moins deux. Et le fait qu’il ne soit pas très significatif est indiqué par la valeur de 0,191, un peu trop éloignée de zéro (rien d’étonnant compte tenu du faible effectif).

Pour terminer cette présentation, précisons que lorsqu’on calcule des corrélations partielles et que l’on dispose de variables en plus grand nombre, on fixe alors l’ensemble des variables non concernées afin de toujours raisonner « toutes choses égales par ailleurs ». Mais le principe reste le même. On observe alors une matrice des corrélations partielles ou, si l’on travaille sur une série chronologique, une fonction d’autocorrélation partielle représentée graphiquement par un corrélogramme partiel.

 

corrélation partielle