Le calcul des paramètres d'une RLM

Exemple de calcul pour régression multiple

Voici une page qui devrait davantage intéresser les étudiants que les statisticiens d’entreprise. Il faudrait vraiment que ces derniers soient démunis pour se lancer dans le calcul manuel d'une régression linéaire multiple ! Et encore, Excel sur lequel nous nous appuyons ici n’a rien de manuel…  Mais vous êtes certainement curieux de connaître les mécanismes qui se cachent derrière les états fournis par les logiciels, n’est-ce pas ?

 

Données

Illustrons. Nous connaissons dix entreprises de location de véhicules pour lesquelles nous souhaitons estimer le chiffre d’affaires (CA) à partir de deux critères que sont l’effectif de l’entreprise et son nombre de véhicules (flotte).

données

 

Problématique

Notre objectif est de prédire une variable aléatoire \(Y\) (le CA) à partir d’une variable \(x_1\) connue (l’effectif) et d’une variable \(x_2\) connue (la flotte). Le squelette du modèle apparaît : \(\widehat y\) \( = {\widehat a_{1}}{x_1} + {\widehat a_{2}}{x_2} + \widehat b + \varepsilon \)

Le travail du data analyst est de trouver les meilleurs paramètres \({\widehat a_{1}}\) et \({\widehat a_{2}}\) ainsi qu'un estimateur de la constante \(b.\) Si l’on se donne \(x_1\) (l’effectif) et \(x_2\) (la flotte), on déduira, si tout se passe bien, un CA convenablement exact…

 

Traitement

Transformons le tableau en deux matrices. La première est constituée des valeurs des deux variables explicatives ainsi que d’une colonne de 1 qui permettra l’existence de l’intercept \(b.\) La seconde est celle des \(y_i\), valeurs prises par la variable à expliquer.

Le calcul matriciel est effectué avec l’add-in d’Excel Matrix.

matrices

Si \(X’\) est la transposée de \(X\), la matrice des coefficients est \((X’X)^{-1}X’Y.\) Ouvrons le bal avec \(X’X\) :

X'X

La matrice inverse  \((X’X)^{-1}\) est :

inverse

Quant à \(X’Y\), c’est une autre histoire…

X'Y

Et voici que les destins se croisent pour nous offrir la matrice des coefficients \((X’X)^{-1}X’Y.\)

matrice des coefficients

D’où l’équation \(\widehat y = 2,7811{x_1} + 5,0791{x_2} - 0,9\)

Vu les montants, la constante -0,9 est juste là pour faire joli… Calculons à présent l'erreur quadratique moyenne \(\sigma^2\) à partir des résidus de la régression.

détail du calcul

La racine carrée, c’est-à-dire l’erreur-type, s’établit à 15,425. Nous pouvons maintenant calculer les écarts-types des trois estimateurs. Soit \(\sigma^2(X’X)^{-1}\) :

variances

Cette matrice des variances-covariances fournit les variances des estimateurs, donc leurs écarts-types (par ordre d’entrée en scène, donc d’abord la constante) :

écarts-types

Voici ci-dessous la sortie d’un logiciel, en l’occurrence Statistica. La troisième et la quatrième colonne présentent les résultats établis ci-dessus. On retrouve également la valeur de l’erreur-type. La suite de l'analyse figure en page tests sur paramètres de régression, à l'exception des validations d'hypothèses sur les résidus (test de Durbin-Watson, tests de normalité...)

tableau Statistica

 

Mise en garde

Les variables d'une régression ont des mesures parfois très différentes. Un modèle peut intégrer une variable binaire (valeur 0 ou 1) et un PIB en euros. Par conséquent, il serait risqué de rejeter un coefficient de régression « pifométriquement » proche de zéro ! Voir notamment la page régression avec saisonnalité.

 

voiture de location