Techniques et concepts de l'entreprise, de la finance et de l'économie 
(et fondements mathématiques)

Le calcul des paramètres d'une RLM

logo

 

 

 

 

 

 

 

 

 

 

Exemple de calcul matriciel pour régression multiple

Voici une page qui devrait davantage intéresser les étudiants que les statisticiens d’entreprise. Il faudrait vraiment que ces derniers soient démunis pour se lancer dans le calcul manuel d'une régression linéaire multiple ! Et encore, Excel sur lequel nous nous appuyons ici n’a rien de manuel…  Mais vous êtes certainement curieux de connaître les mécanismes qui se cachent derrière les états fournis par les logiciels, n’est-ce pas ?

Illustrons. Nous connaissons dix entreprises de location de véhicules pour lesquelles nous souhaitons estimer le chiffre d’affaires (CA) à partir de deux critères que sont l’effectif de l’entreprise et son nombre de véhicules (flotte).

données

Notre objectif est de prédire une variable aléatoire y (le CA) à partir d’une variable x1 connue (l’effectif) et d’une variable x2 connue (la flotte). Le squelette du modèle apparaît ainsi :

RLM à 2 variables

Le travail du statisticien est de trouver les meilleurs paramètres â1 et â2 ainsi qu'un estimateur de la constante b. Si l’on se donne x1 (l’effectif) et x2 (la flotte), on déduira, si tout se passe bien, un CA convenablement exact…

Transformons le tableau en deux matrices. La première est constituée des valeurs des deux variables explicatives ainsi que d’une colonne de 1 qui permettra l’existence de l’intercept b. La seconde est celle des yi, valeurs prises par la variable à expliquer.

Le calcul matriciel est effectué avec l’add-in d’Excel Matrix.

matrices

Si X’ est la transposée de X, la matrice des coefficients est (X’X)-1X’Y. Ouvrons le bal avec X’X :

X'X

La matrice inverse  (X’X)-1 est :

inverse

Quant à X’Y, c’est une autre histoire…

X'Y

Et voici que les destins se croisent pour nous offrir la matrice des coefficients (X’X)-1X’Y.

matrice des coefficients

D’où l’équation :

équation

Vu les montants, la constante -0,9 est juste là pour faire joli… Calculons à présent l'erreur quadratique moyenne σ² à partir des résidus de la régression.

détail du calcul

La racine carrée, c’est-à-dire l’erreur-type, s’établit à 15,425. Nous pouvons maintenant calculer les écarts-types des trois estimateurs. Soit σ² (X’X)-1 :

variances

Cette matrice des variances-covariances fournit les variances des estimateurs, donc leurs écarts-types (par ordre d’entrée en scène, donc d’abord la constante) :

écarts-types

Voici ci-dessous la sortie d’un logiciel, en l’occurrence Statistica. La troisième et la quatrième colonne présentent les résultats établis ci-dessus. On retrouve également la valeur de l’erreur-type. La suite de l'analyse figure en page tests sur paramètres de régression, à l'exception des validations d'hypothèses sur les résidus (test de Durbin-Watson, tests de normalité...)

tableau Statistica

Note : les variables d'une régression ont des mesures parfois très différentes. Un modèle peut intégrer une variable binaire (valeur 0 ou 1) et un PIB en euros. Par conséquent, il serait risqué de rejeter un coefficient de régression « pifométriquement » proche de zéro ! Voir notamment la page régression avec saisonnalité.

 

voiture de location

 

© JY Baudot - Droits d'auteur protégés