La tendance sur moyennes annuelles

Tendance et désaisonnalisation sur moyennes annuelles

Si l’on calcule l'expression d'une droite de régression linéaire du temps pour estimer la tendance d’une série chronologique et que l’on dispose de plusieurs données par an (mensuelles ou trimestrielles, par exemple), c’est une erreur d’utiliser TOUTES les données brutes. Il convient d’utiliser les seules MOYENNES ANNUELLES (sauf bien sûr si l'on fait notre régression sur une série déjà lissée par moyennes mobiles).

Pourquoi ? Parce que sinon, la droite de régression résumera non seulement la tendance, mais aussi la saisonnalité que l’on cherche précisément à isoler…

Reprenons l’exemple (certes un peu baroque) des ventes de doses de poison pendant onze années du XIIe siècle, déjà utilisé pour expliquer la désaisonnalisation. Les données figurent dans le tableau de Buys-Ballot ci-dessous :

Exemple

Le graphique correspondant est le suivant :

Graphique exemple

Excel a calculé les paramètres de la droite de régression linéaire. Si l’on considère le 1er trimestre de l’an de grâce 1120 comme étant la valeur 1, l’équation de la droite de régression est égale à = 0,607 t + 67,08. Comme vous l’avez deviné, t est le numéro du trimestre (1 à 44).

Mais cette régression pose deux problèmes. D’abord, le coefficient de corrélation risque de ne pas vouloir dire grand-chose car les variations saisonnières sont importantes, ce qui implique une forte variance résiduelle. Ensuite, la droite de régression va être un peu trop pentue car l’impact de la saisonnalité est négatif en début d’année et positif ensuite : si l’on calcule la régression sur une seule année, la droite est croissante. On ne veut pas de cet effet parasite pour établir notre tendance !

Intéressons-nous alors aux moyennes annuelles, qui sont les suivantes :

Moyennes annuelles

Sur ces valeurs, l’équation de la droite est, en arrondissant, y = 68,78 + 2 t’. Précisons que t’ = numéro de l’année (1 à 11).

Nous allons maintenant procéder à une petite manipulation car nous estimons une variable de flux. On va donc considérer que les observations s’appliquent au milieu de chaque période. L’origine est située au 30 juin 1119 (milieu de l’année) et la valeur 1 correspond au 30 juin 1120. Au 1er janvier 1120, t’ = 0,5. Donc le milieu du premier trimestre correspond à 0,5 + (1 / 8) = 0,625.

La première valeur de notre tableau désaisonnalisé sera donc 68,78 + (0,625 × 2) = 70 pour le premier trimestre 1120. La pente de la droite de régression est fort logiquement égale à 2 / 4 = 0,5.

Avec un trend y =  0,5 t + 70, on constate donc que la droite de régression est, comme prévu, moins pentue que lorsqu’elle était calculée sur toutes les valeurs trimestrielles ! Les coefficients saisonniers et les résidus seront eux aussi différents de ce qu’ils étaient avec la méthode « brutale ».

Avec tendance sur trimestres :

Résidus tendance sur trimestres

Avec tendance sur années :

Résidus sur tendance annuelle

On voit bien comment le pivotement de la droite supprime le biais qui existait sur les résidus. Seule l’année du milieu (1125) reste inchangée alors que les résidus sont très différents aux extrémités de la chronique.

Les coefficients saisonniers s’établissent quant à eux à -30,00 pour T1, -10,27 pour T2, 40,55 pour T3 et -0,27 pour T4.

 

falsification