La tendance sur moyennes annuelles

Tendance et désaisonnalisation sur moyennes annuelles

Il n'est pas difficile d'établir l'expression d'une droite de régression linéaire du temps pour estimer la tendance d’une série chronologique. Avec un tableur, ça ne vous prend que quelques secondes. Mais prudence, le terrain est miné...

 

Le piège

Si l’on dispose de plusieurs données par an (mensuelles ou trimestrielles, par exemple), c’est une erreur d’utiliser toutes les données brutes. Il convient d’utiliser les seules moyennes annuelles (sauf bien sûr si l'on fait notre régression sur une série déjà lissée par moyennes mobiles).

Pourquoi ? Parce que sinon, la droite de régression résumera non seulement la tendance, mais aussi la saisonnalité que l’on cherche précisément à isoler…

 

Exemple

Reprenons l’exemple (certes un peu baroque) des ventes de doses de poison pendant onze années du douzième siècle, déjà utilisé pour expliquer la désaisonnalisation. Les données figurent dans le tableau de Buys-Ballot ci-dessous :

Doses 1 2 3 4
1120 38 60 116 73
1121 41 62,5 113,5 72,5
1122 42,3 68,5 112 79
1123 46 64 117 74,5
1124 50 65,5 119 81
1125 48 68 124,5 76,5
1126 54,5 75 123 83
1127 57 70 128,5 86,5
1128 52 79,5 129 85,5
1129 58,5 75 125 88,5
1130 62,5 84,5 129,5 93,5

Le graphique correspondant est le suivant :

Graphique exemple

Excel a calculé les paramètres de la droite de régression linéaire. Si l’on considère le 1er trimestre de l’an de grâce 1120 comme étant la valeur 1, l’équation de la droite de régression est égale à \(y\) \(=\) \(0,607t + 67,08.\) Comme vous l’avez deviné, \(t\) est le numéro du trimestre (1 à 44).

Mais cette régression pose deux problèmes. D’abord, le coefficient de corrélation risque de ne pas vouloir dire grand-chose car les variations saisonnières sont importantes, ce qui implique une forte variance résiduelle. Ensuite, la droite de régression va être un peu trop pentue car l’impact de la saisonnalité est négatif en début d’année et positif ensuite : si l’on calcule la régression sur une seule année, la droite est croissante. On ne veut pas de cet effet parasite pour établir notre tendance !

poison

Intéressons-nous alors aux moyennes annuelles. Elles sont les suivantes :

Année Moyenne
1120 71,75
1121 72,375
1122 75,5
1123 75,375
1124 78,875
1125 79,25
1126 83,875
1127 85,5
1128 86,5
1129 86,75
1130 92,5

Sur ces valeurs, l’équation de la droite est, en arrondissant, \(y\) \(=\) \(68,78 + 2t’.\) Précisons que \(t’\) \(=\) numéro de l’année (1 à 11).

Nous allons maintenant procéder à une petite manipulation car nous estimons une variable de flux. On va donc considérer que les relevés ont lieu au milieu de chaque période. L’origine est située au 30 juin 1119 (milieu de l’année) et la valeur 1 correspond au 30 juin 1120. Au 1er janvier 1120, \(t’ = 0,5.\) Donc le milieu du premier trimestre correspond à \(0,5 + \frac{1}{8} = 0,625.\)

La première valeur de notre tableau désaisonnalisé sera donc \(68,78 + (0,625 × 2)\) \(=\) \(70\) pour le premier trimestre 1120. La pente de la droite de régression est fort logiquement égale à \(\frac{2}{4} = 0,5.\)

Avec un trend d'équation \(y = 0,5t + 70,\) on constate donc que la droite de régression est, comme prévu, moins pentue que lorsqu’elle était calculée sur toutes les valeurs trimestrielles ! Les coefficients saisonniers et les résidus seront eux aussi différents de ce qu’ils étaient avec la méthode « brutale ».

Avec tendance sur trimestres :

Résidus tendance sur trimestres

Avec tendance sur années :

Résidus sur tendance annuelle

On voit bien comment le pivotement de la droite supprime le biais qui existait sur les résidus. Seule l’année du milieu (1125) reste inchangée alors que les résidus sont très différents aux extrémités de la chronique.

Les coefficients saisonniers s’établissent quant à eux à -30,00 pour \(T1,\) -10,27 pour \(T2,\) 40,55 pour \(T3\) et -0,27 pour \(T4.\)

falsification