La matrice des corrélations

Matrice des corrélations de Pearson

Voici un outil conceptuellement assez simple et dont les applications pratiques sont nombreuses.

 

Différentes matrices de corrélation

La matrice des corrélations est tout simplement la matrice des coefficients de corrélation statistiques ou de coefficients de corrélation stochstiques calculés sur plusieurs variables prises deux à deux.

En général, il s’agit des coefficients de Pearson. C’est donc aussi la matrice des variances-covariances de variables réduites. La matrice est évidemment symétrique et sa diagonale est constituée de 1 puisque la corrélation d’une variable avec elle-même est parfaite. Donc, sa trace est égale au nombre de variables.

Des matrices d’autres coefficients que celui de Pearson sont parfois utilisées, notamment les coefficients de Kendall ou de Spearman.

 

Utilité

Une matrice des corrélations permet de détecter rapidement certaines liaisons. C’est donc en amont des études qu’on l’utilise. Toutefois, dès que le nombre de variables devient important, les interprétations deviennent difficiles et on se tourne souvent vers les analyses factorielles. Qu’entend-on par « important » ? Pas de réponse. Tout dépend du problème posé et des corrélations plus ou moins franches !

Ces matrices sont l’élément essentiel des tests de corrélation utilisés dans de très nombreux domaines. Une régression multiple, par exemple, nécessite de s’assurer qu’il n’existe pas de colinéarité entre variables explicatives.  Certains logiciels (XLSTAT, par exemple) proposent également des « cartes de corrélation » : ce sont des damiers dans lesquels les coefficients sont remplacés soit par des couleurs, soit par des nuances de gris selon la valeur ou le signe des coefficients. Un gadget qui peut être pratique si vous devez analyser dans l’urgence des matrices importantes ou présenter vos résultats en réunion

 

Exemple

Un exemple de matrice. Trois variables (des ports) avec pour valeurs des millions de tonnes transportées par mois (source INSEE). Utilisation de la fonction COEFFICIENT.CORRELATION d’Excel :

Exemple

On constate une indépendance linéaire presque totale entre Dunkerque et Marseille tandis que Le Havre montre des similitudes tantôt avec l’un, tantôt avec l’autre.

cargo

De nombreux logiciels présentent les nuages de points entre variables prises deux à deux afin de visualiser les corrélations (et éventuellement détecter des corrélations non linéaires).

Cet exemple constitue peut-être le début et la fin d'une étude quantitative, la connaissance du fret maritime permettant de conclure. En revanche, l’exemple qui se trouve sur la page Résultats d’une ACP sur les variables (avec XLSTAT) pourrait servir au tri des variables explicatives conduisant au modèle le plus prédictif. Il s’agirait alors, comme indiqué plus haut, de la partie amont d’une étude. Voir aussi, avec ce même logiciel, la régression multiple avec tableur.

 

Finance

La matrice des corrélations est particulièrement utilisée en finance. Un portefeuille est d'autant moins risqué que les variations du prix des titres qui le composent sont peu corrélées entre elles (voir page théorie du portefeuille). C'est le principe de mutualisation du risque.

 

corrélations