L'autocorrélation partielle

Autocorrélation et corrélogramme partiels

Méfiez-vous des corrélations. Certaines sont trompeuses. Prenons un cas évident (et stupide). Un éleveur de bovins constate qu’au cours des dix dernières années, son cheptel a consommé davantage de nourriture et davantage de vaccins. Excellente corrélation. Est-ce à dire que les vaccins creusent l’appétit ? Bien sûr que non, c’est tout simplement que son cheptel s’est étoffé et qu’il doit en conséquence acheter davantage de nourriture et davantage de vaccins…

 

La corrélation partielle

D’où l’idée d’effectuer une corrélation partielle, c’est-à-dire de mesurer la corrélation entre nourriture et taille du cheptel d’une part, entre quantité de vaccins et taille du cheptel d’autre part. Parions que nos corrélations seront quasi parfaites. Supposons qu’il reste malgré tout un très petit résidu non expliqué pour chacune des deux variables nourriture et vaccins. Un calcul de corrélation entre ces deux séries de dix résidus montrera probablement un coefficient insignifiant. C’est ce coefficient de corrélation partielle qui prouvera que les vaccins ne creusent pas l’appétit (ou inversement, qu’il est inutile de vacciner davantage les vaches qui mangent plus que les autres).

vaches

Cette belle trouvaille s’applique aussi aux processus stochastiques qui sont, rappelons-le, des séries chronologiques où chaque observation est considérée comme une variable aléatoire. Une recherche d’autorrélation, c’est-à-dire de corrélation entre les variables qui ont été observées avec un même décalage temporel (par exemple tous les 3, 4, 5… mois) permet de mettre à jour une saisonnalité. Mais une corrélation partielle peut se révéler, selon la problématique de l’étude, beaucoup plus intéressante.

Supposons par exemple un relevé mensuel qui laisse apparaître deux saisonnalités, l’une trimestrielle et l’autre annuelle. Donc, saisonnalité sur trois mois et sur son multiple de douze mois. Chaque année, il existe ainsi une saisonnalité annuelle qui s’ajoute à la trimestrielle. Le coefficient d’autocorrélation sur une longueur de douze mois a de bonnes chances d’être très élevé puisqu’il intègre les deux saisonnalités cumulées. En revanche, le coefficient d’autocorrélation PARTIELLE sur douze mois ne mesure que la qualité de la saisonnalité purement annuelle puisque la composante trimestrielle est ôtée (exemple ci-dessous).

De même, le corrélogramme (représentation graphique de tous les retards d’ordre \(k,\) \(k\) étant un entier relatif) d’une série avec saisonnalité annuelle montre une pointe tous les 12, 24, 36… mois alors que le corrélogramme partiel n’indique que la pointe sur douze mois. Voir à cet égard leur présentation conjointe par le logiciel OpenStat en page corrélogramme.

En observant les paliers sur un corrélogramme partiel, il est possible de déterminer l’ordre du processus autorégressif auquel se rattachent les observations (mais pas du processus moyenne mobile), du moins à partir de l’ordre 2.

 

Exemple

Voici une série fictive qui montre une petite augmentation tous les trimestres et une forte hausse toutes les fins d’année (présentation Excel).

données

Ces données ont été reportées en une colonne sur SPSS (qui n’est pas SPSS Decision Time). Choix Forecasting puis Autocorrelations.Extraits (d’abord, le corrélogramme puis le corrélogramme partiel) :

corrélogramme

corrélogramme partiel

La longueur des barres est proportionnelle aux coefficients d'autocorrélation, positifs lorsque la barre est au-dessus de l'axe horizontal et négatifs si la barre est au-dessous.

Les deux graphes mettent en exergue la saisonnalité sur trois mois mais le premier indique très logiquement un retard sur douze mois particulièrement important. Il montre aussi des corrélations sur 6, 9 et 15 mois qui n’ont aucun intérêt (ce sont juste des multiples de 3). Le corrélogramme partiel est plus intéressant. Le pic annuel est moins marqué. En revanche, la corrélation négative sur le retard de deux mois apparaît plus clairement qu’avec le premier graphe (si l’on retient n’importe quel mois ainsi que le mois \(m + 2,\) il y a forcément un mois « fort » et un mois « faible », d’où une corrélation négative). Pour information, voici les coefficients :

coefficients partiels

 

autocorrélation partielle