Régression linéaire multiple : principes et méthode

Principe et utilisation de la régression linéaire multiple

La régression multiple ? Très vaste programme… Technique de base de l'économétrie, mise au point à la fin du dix-neuvième siècle par George Udby Yule et toujours indispensable pour de nombreuses démarches scientifiques, elle est utilisée par les grandes organisations mais rarement en PME (du moins pour des problématiques de gestion ou commerciales). Non pas que les calculs soient difficiles à mettre en œuvre ; c'est généralement le coût d'obtention les variables explicatives qui en limite l'utilisation.

Cadre d'analyse

Vous maîtrisez probablement les tenants et aboutissants de la régression linéaire simple (RLS). Sauf qu'ici, ce sont plusieurs variables qui peuvent être liées à celle que l'on voudrait prédire. Et comme la connaissance de la régression empirique ne suffit pas, relisez la page estimateurs des moindres carrés au cas où vos connaissances de l'approche probabiliste nécessiteraient une piqûre de rappel.

Une régression peut avoir plusieurs finalités : description d’une structure de corrélation mais aussi technique prévisionnelle ou modélisation permettant d'envisager les conséquences d'une évolution (par exemple l'impact d'une augmentation des taux d'intérêt, parmi d'autres facteurs, sur la demande de produits d'assurance-vie).

Il n’est pas question ici de procéder aux démonstrations. Les ouvrages qui traitent du sujet ne demandent qu’à être lus. Sur ce site, on s’intéresse surtout aux utilisations possibles (et elles sont nombreuses), aux conditions de validité et à l’interprétation des sorties de logiciels. Mais quelques éléments de théorie sont tout de même donnés ici ou là...

Principe

Les statistiques sont véritablement nées en Angleterre, dans les dernières années du dix-neuvième siècle. Parmi les grands noms de l'époque, mentionnons George Yule, assistant de Ronald Fisher. C'est à lui que nous devons la technique géniale de la régression multiple.

On cherche à déterminer la valeur d’une variable numérique aléatoire, dite « expliquée » ou « dépendante », par les valeurs de plusieurs autres variables, dites « explicatives », numériques ou binaires. Celles-ci sont éventuellement mesurées avec des unités différentes (euros, m², quantité…). On suppose donc qu'un modèle décrit parfaitement la réalité et l'on cherche à s'en approcher :

\(y_i =\) \(a_1x_{1i} + a_2x_{2i} + {...} + a_{k}x_{ki} + b + \varepsilon_i\)

Graphiquement, il est impossible de visualiser une droite comme c'est la coutume avec la RLS. C’est sur un hyperplan, qui passe par le centre de gravité du nuage de points, que ceux-ci sont projetés parallèlement à l’axe de la variable à expliquer. Une judicieuse position du repère de cet hyperplan minimise les carrés des distances des projections orthogonales. Cette approche géométrique ne sera pas approfondie.

abstraction

Ne nous berçons pas d'illusions, le modèle obtenu ne sera pas parfait. Pour chaque valeur observée ou presque, il existera des différences entre ses prédictions et la réalité. Ce sont les résidus. Ils doivent être examinés à la loupe car si l'on s'aperçoit qu'ils sont structurés, c'est que le modèle est perfectible...

Précautions d’emploi

Le choix des variables : on n’abordera pas ici la question du choix a priori des variables qui est affaire du spécialiste métier et… de bon sens (système de mesure unique d’une variable donnée pour tous les effectifs, par exemple). Précisons juste que l'effectif doit être supérieur au nombre de variables.

Les outliers : mêmes remarques que pour toute méthode basée sur des écarts par rapport à une moyenne. Il faut éliminer ou imputer sans pitié les observations aberrantes et extrêmes qui fausseront l'équation de régression et donc les conclusions de l'étude.

Construction

Supposons maintenant que ces précautions sont prises. Tous les feux étant au vert, nous pouvons estimer les coefficients \(a\) et la constante \(b.\) Votre logiciel va s'en charger mais à tout hasard, voici un bref aperçu théorique.

Les paramètres de la régression, estimateurs des vrais paramètres inconnus, sont des variables aléatoires dont on peut estimer les variances (ce qui est écrit en page estimateurs de la RLS reste valable en régression multiple).

Soit \(X\) la matrice rectangulaire des valeurs des \(k\) variables explicatives pour les \(n\) unités statistiques, plus une colonne de 1 (pour la constante). \(Y\) est la matrice colonne des valeurs de la variable à expliquer. Soit \(X'\) la transposée de \(X.\) La matrice des coefficients est égale à \((X'X)^{-1}X’Y.\)

Cette matrice nous fournit les espérances des vrais paramètres. Mais il nous faut aussi connaître leurs dispersions pour juger de leur plus ou moins bonne « qualité ». On calcule alors l'erreur quadratique moyenne \(\sigma^2\) (somme des carrés des résidus divisée par \(n - k - 1\) qui permet d'établir leur matrice des variances-covariances : \(\sigma^2(X’X)^{-1}.\)

Ces explications vous paraissent trop denses pour être digestes ? Vous avez raison. Le détail de ces étapes fait l'objet de la page paramètres de la régression multiple.

Un coefficient \(a_i\) apporte-t-il une vraie contribution à la qualité du modèle ou le parasite-t-il inutilement ? Un test nous permet d’avoir notre petite idée…

Comme nous connaissons l’espérance et l'écart-type d’un estimateur et que nous formulons des hypothèses sur les erreurs du modèle (même variance, pas d'autocorrélation et distribution normale), un test paramétrique s'impose. Il utilisera le \(t\) de Student.

Sous H0, \(a\) est nul. Le test est unilatéral et on lit la valeur limite de \(t\) dans une table de Student à \(n - k - 1\) degrés de liberté (attention : si par convention votre manuel préféré ou l’aide de votre logiciel considère la constante comme faisant partie des \(k\), il vous indique évidemment \(n - k\) degrés de liberté).

Cette partie du travail est traitée en page tests sur paramètres d'une régression.

On peut indiquer le \(t\) entre parenthèses, sous le coefficient estimé, lorsqu’on présente une équation de régression.

La qualité globale de la régression est quant à elle mesurée par le coefficient de détermination (\(R^2\)), « ajusté » de préférence. L'AIC est un critère plus fiable car il permet de choisir entre différents modèles, pénalisant ceux qui utilisent trop de variables et qui se révéleront peu robustes, à la différence du \(R^2.\)

L'emploi d'un test paramétrique permet de définir un intervalle de prévision pour un risque d'erreur déterminé.

Utilisation

Les emplois sont très nombreux bien que souvent limités par l’indisponibilité des données. La plupart des modèles prédictifs reposent sur les régressions multiples, principalement dans les domaines techniques et l’économétrie, mais aussi dans les services fonctionnels de grandes entreprises (prévisions de commandes, études de marché…) ou de banques et assurances (prévisions de risques).

L’interprétation est très différente de celle d’une ACP, et pas seulement parce qu’on « explique » une variable par d’autres. S'il est possible d'agir sur un paramètre, on constate les effets sur la variable à expliquer toutes choses égales par ailleurs. Une telle utilisation est en revanche équivalente à une ANOVA, sauf qu’on mesure l'impact d'une variable quantitative et non d'un facteur. Ces deux techniques sont d'ailleurs de proches cousines. Autre technique voisine, l'analyse discriminante qui est employée lorsque c'est la variable à expliquer qui est qualitative.

XLSTAT

Voir la régression multiple avec tableur.

élevage de dalmatiens