Le coefficient de corrélation de Pearson

Mesure de corrélation linéaire empirique

Le coefficient de corrélation linéaire, ou de Bravais-Pearson, est tellement connu qu’on ne le présente plus. Sauf que nous le présentons quand même. En effet, certaines subtilités méritent un arrêt sur image.

 

Le contexte

Cherchant une liaison dans une distribution à deux variables sur une population, nous établissons une régression linéaire simple (RLS), « résumant » graphiquement un nuage de points par une droite, dite de régression. Ce résumé est plus ou moins bon, selon que l’on lie un volume de ventes aux remises promotionnelles ou que l’on estime la production de laine aux États-Unis par le nombre de pages lues de ce site web.

Comment mesurer la qualité d'une régression linéaire ?

On pourrait calculer la somme des distances au carré qui séparent chaque point-observation de la droite de régression. Mauvaise idée. Cet indicateur dépendrait du nombre d'observations mais aussi des unités de mesure choisies. Son utilité serait donc très limitée.

 

Présentation

La qualité de cette régression est mesurée par le coefficient de corrélation. Un unique indicateur qui présente de nombreux avantages et quelques inconvénients, comme nous le verrons.

C'est la covariance entre la variable explicative \(x\) et la variable à expliquer \(y\), rapportée au produit de leurs écarts-types.

\[r = \frac{{{\sigma _{xy}}}}{{{\sigma _x}{\sigma _y}}}\]

Comme une covariance est forcément inférieure ou égale au produit des écarts-type, le coefficient est compris entre -1 et 1. Un signe négatif indique que \(y\) varie en sens inverse de \(x\) et on parle alors de corrélation négative (c'est bien sûr la covariance qui est négative).

Si le coefficient est proche de 0, les deux variables sont linéairement indépendantes tandis qu'une liaison linéaire est d'autant plus marquée que le coefficient s'approche de 1 ou de -1.

C’est un indicateur sans dimension, indépendant des unités de mesure des observations puisqu’on a « standardisé » la covariance.

Nous avons nommé ce coefficient \(r\). Certains préfèrent la lettre grecque rhô (\(\rho\)), au risque de le confondre avec le coefficient de Spearman. D’autres auteurs utilisent \(r\) pour un échantillon (c'est alors un estimateur) et \(\rho\) pour une population. On considère alors que les observations sont des réalisations de variables aléatoires dont la distribution est supposée connue. C'est la notation que nous avons retenue sur ce site. Voir la page corrélation de variables aléatoires.

Voir en page calculs de paramètres d'une régression deux façons de calculer \(r\).

 

Symétrie et coefficient de détermination

Que la régression soit effectuée de \(y\) en \(x\) ou de \(x\) en \(y\), le coefficient reste le même. Sa formule le montre avec évidence.

Le carré du coefficient de corrélation est le coefficient de détermination (\(R^2)\). C'est aussi le produit des coefficients des deux droites d'ajustement (de \(y\) en \(x\) et de \(x\) en \(y\)).

\[{r ^2} = \frac{{{\sigma _{xy}}}}{{{\sigma _x}^2}} \times \frac{{{\sigma _{xy}}}}{{{\sigma _y}^2}}\]

 

Limites et prolongements

Comme il mesure l'intensité qui lie deux variables seulement, le coefficient de corrélation ne peut résumer la qualité d’une régression multiple. Toutefois, il conserve dans ce cadre son utilité : calculé pour chaque paire de variables explicatives, il alimente la matrice des corrélations. Par conséquent, il permet de repérer les variables superflues.

Surtout, une liaison fonctionnelle parfaite peut passer totalement inaperçue. L'exemple choisi dans tous les manuels est celui d'une liaison fonctionnelle du second degré, qui se traduit graphiquement par une parabole. Dans ce cas, \(r = 0\). Le coefficient garde cependant son utilité lorsqu'une régression non linéaire peut être linéarisée par un changement de variable (régression logarithmique, par exemple). Précisons que ce n'est pas vraiment une limite ; c'est juste que ce n'est pas l'outil approprié lorsqu'une liaison n'est pas linéaire. On ne reproche pas à un tournevis d'être inopérant pour planter des clous !

Attention, il peut suffire d'une seule valeur aberrante pour que le coefficient de corrélation perde toute validité. Il n'est pas robuste.

Voir aussi la page sur la corrélation partielle.

 

Validité

Nous avons vu que plus une liaison linéaire était intense, plus la valeur absolue de \(r\) s'approchait de 1. Existe-t-il un seuil qui déterminerait une limite entre une bonne corrélation et une mauvaise ? La réponse est oui lorsque \(r\) est considérée comme une v.a mais ici nous ne nous situons pas dans ce cas de figure.

Nous présentons donc une technique plus rudimentaire.

Sachant que le coefficient de détermination indique la part de la variance expliquée dans la variance totale, on peut souhaiter qu'elle dépasse \(50\,\% \). Or, le coefficient de corrélation est égal à la racine carrée du coefficient de détermination. Donc, \(\left| \rho \right| > \sqrt {0,5} \) c'est-à-dire \(\left| \rho \right| > 0,707\).

Ce seuil est toutefois assez bas et il est préférable de raisonner sur l'écart-type. C'est-à-dire que l'écart-type de \(y\) expliqué par rapport à la droite de régression doit représenter plus de la moitié de l'écart-type de \(y\) (qui, lui, est exprimé par rapport à la moyenne \({\bar y}\)).

La variance résiduelle peut s'écrire \({\sigma _y}^2\left( {1 - {\rho ^2}} \right)\). Si l'on impose à l'écart-type résiduel la condition selon laquelle il doit représenter moins de la moitié de l'écart-type total, on peut donc écrire l'inégalité suivante :

\({\sigma _y}\sqrt {\left( {1 - {\rho ^2}} \right)} < 0,5\,{\sigma _y}\)
\( \Leftrightarrow \sqrt {\left( {1 - {\rho ^2}} \right)} < 0,5\)
\( \Leftrightarrow {\rho ^2} > 0,75\)
\( \Leftrightarrow \left| \rho \right| > 0,866\)

 

Quelques outils

Avec calculatrices : voir la page RLS avec calculatrices.

Avec Excel : voir la page RLS avec Excel. Une application à la gestion figure en page choix des unités d'œuvre.

 

 

attention au coefficient