Techniques et concepts de l'entreprise, de la finance et de l'économie 
(et fondements mathématiques)

Le coefficient de corrélation de Pearson

logo

 

 

 

 

 

 

 

 

 

 

Mesure de corrélation linéaire

Le coefficient de corrélation linéaire, ou de Bravais-Pearson, est tellement connu qu’on ne le présente plus. Sauf que nous le présentons quand même. En effet, certaines subtilités méritent un arrêt sur image.

Cherchant une liaison dans une distribution à deux variables, nous établissons une régression linéaire simple (RLS), « résumant » graphiquement un nuage de points par une droite, dite de régression. Ce résumé est plus ou moins bon, selon que l’on lie un volume de ventes aux remises promotionnelles ou que l’on estime la production de berlingots de Montélimar par le taux de natalité dans l’île de Sumatra.

La « qualité » de cette régression est mesurée par le coefficient de corrélation. C'est la covariance entre la variable explicative x et la variable à expliquer y, rapportée au produit de leurs écarts-types.

coefficient de corrélation

Comme une covariance est forcément inférieure ou égale au produit des écarts-type, le coefficient est compris entre -1 et 1. Un signe négatif indique que y varie en sens inverse de x et on parle alors de corrélation négative. Si le coefficient est proche de 0, les deux variables sont linéairement indépendantes tandis qu'une liaison linéaire est d'autant plus marquée que le coefficient s'approche de 1 ou de -1.

On remarque qu’il reste égal à lui-même, que la régression soit effectuée de y en x ou de x en y.

C’est un nombre sans dimension, indépendant des unités de mesure des observations puisqu’on a « standardisé » la covariance.

J’ai noté ce coefficient r. Certains préfèrent la lettre grecque rhô (ρ), au risque de le confondre avec le coefficient de Spearman. D’autres auteurs utilisent r pour un échantillon et ρ pour une population.

Comme il mesure l'intensité qui lie deux variables seulement, le coefficient de corrélation ne peut résumer la qualité d’une régression multiple. Toutefois, il conserve dans ce cadre son utilité : calculé pour chaque paire de variables explicatives, il alimente la matrice des corrélations. Par conséquent, il permet de repérer les variables superflues.

Le carré du coefficient de corrélation est le coefficient de détermination (R²).

Enfin, la suite de coefficients de corrélation d’une série chronologique avec elle-même selon un décalage de k (= 1, 2, etc.), c’est-à-dire la suite des coefficients d’autocorrélation, s’appelle une fonction d'autocorrélation, visualisable sur un corrélogramme.

Voici pour les présentations.

A partir de quelle valeur de r considère-t-on que la corrélation est significative ?

On a coutume de dire : « plus le coefficient est proche de 1, meilleure est la corrélation ». Certes, certes… Plus précisément, c’est le nombre d’observations n, ou plutôt le nombre de degrés de liberté ( 2 pour une régression simple), qui détermine une valeur limite, pour un niveau de risque d’erreur donné, et il existe pour cela des tables du r. Elles sont rarement reprises dans les manuels de statistiques (voir tout de même G. Saporta, Probabilités, analyse des données et statistique, Technip : table jusqu’à 200 degrés de liberté). En revanche, on peut construire une statistique avec r et la comparer avec un t de Student :

t de Student

On procède également au test du F à partir du coefficient de détermination.

Extrait de la table du coefficient de Pearson (pour un risque alpha de 5 %) :

Table du r

Si l’on travaille sur un échantillon, le coefficient de Pearson est une variable aléatoire. On situe l'estimation de sa vraie valeur dans un intervalle de confiance.

Exemples

Avec calculatrices : voir la page RLS avec calculatrices.

Avec Excel : voir la page RLS avec Excel. Une application à la gestion figure en page choix des unités d'œuvre.

Avec Statistica : pour une étude de marché, on demande à vingt répondants de noter un produit sur 4. On veut savoir si leur âge peut expliquer une perception différente de ce produit. Nous ne disposons que de tranches d’âge et nous utiliserons les centres de classes.

Exemple

Les sorties de la régression sont les suivantes (extrait) :

Résultat Statistica

Pour un niveau de confiance de 0,95, le coefficient de 0,509 est significatif puisqu’il est supérieur à 0,44 (18 degrés de liberté). Mais la régression n’explique que très moyennement la dispersion : le R² est de 0,259. La variance totale n’est expliquée qu’à 25,9 % par la régression linéaire. Le R² ajusté s’établit à 0,218.

Dans la mesure où la corrélation semble couci-couça, il aurait été intéressant de relever le véritable âge des répondants, ce qui aurait peut-être fait basculer nos conclusions d’un côté ou de l’autre.

 

attention au coefficient

 

© JY Baudot - Droits d'auteur protégés