Estimateurs des moindres carrés, erreurs et résidus

Paramètres et erreurs du modèle linéaire simple

Sur cette page faisons plus ample connaissance avec les paramètres de la régression linéaire simple (RLS). Rappelons le contexte.

Cadre d'analyse

On cherche si une liaison linéaire existe entre deux variables numériques pour la résumer par une relation fonctionnelle, tout en sachant qu'elle sera imparfaite. Par exemple, on tente de déterminer l’âge d’un arbre (variable expliquée) par la seule circonférence de son tronc (variable explicative). L'âge de l'arbre \(i\) dont la circonférence mesure \(x\) est donc \(y_i\), valeur prise par une variable aléatoire (v.a) \(Y_i\).

La RLS consiste à modéliser une relation entre les deux variables grâce à une équation du premier degré. C'est donc l'équation d'une droite, qui repose sur deux paramètres, le coefficient directeur et l'ordonnée à l'origine. À moins de se situer dans un contexte de statistiques descriptives, la régression va plus loin puisqu'elle en intègre un troisième, comme nous le verrons.

À une même valeur \(x_i\) peuvent correspondre plusieurs valeurs de \(Y_i\) car un élément perturbateur sera toujours présent. Plusieurs arbres peuvent présenter des circonférences identiques mais des âges différents (à cause du sol, de la météo, des parasites…). Autre élément aléatoire, une régression est le plus souvent un modèle établi à partir d’un échantillon aléatoire, soumis à fluctuations d'échantillonnage mais destiné à s'appliquer à toute une population.

Ce problème s'étend aux valeurs de séries temporelles : on considère qu’elles constituent elles aussi un échantillon puisque le modèle sera extrapolé au futur. En revanche, on ne peut pas trouver deux mêmes valeurs de \(Y_i\) pour une même valeur \(x_i\) (chaque \(x_i\) correspond à une date unique).

Notez que le principe de la modélisation est échafaudé sur l’hypothèse qu’une relation existe. Ce n’est pas pour autant qu'elle est bâtie sur du sable puisque sa pertinence sera validée par des mesures statistiques (coefficient de corrélation, test de Student). Par ailleurs, liaison ne signifie pas causalité. Pour reprendre notre exemple, on part de la réalisation d'une variable aléatoire (circonférence des troncs) pour estimer le passé (par exemple l'âge d'une forêt) alors qu'en toute logique c'est la circonférence d'un arbre qui est plus ou moins expliquée par son âge !

Les deux paramètres que fournirait une RLS dans un champ descriptif deviennent donc deux v.a. dans le cadre probabiliste.

Erreurs et résidus

Définissons deux concepts à ne pas confondre.

On suppose qu’un modèle peut représenter la réalité tout en admettant qu'il existe des variations individuelles. Pour deux \(x_i\) identiques, on peut avoir deux \(y_i\) différents. Cette composante aléatoire est appelée erreur, bien que le terme soit rarement approprié. Ces erreurs sont donc des v.a et on est un peu obligé de faire l'hypothèse que leur espérance est nulle (pour faire court, une erreur dans un sens sera contrebalancée par une autre dans l'autre sens). Sur certaines enquêtes, on sait à l'avance que ce n'est pas le cas mais on n'approfondira pas ici la correction de ce type de biais. On suppose aussi que les erreurs suivent une loi normale. Elles sont notées \(\varepsilon \) (epsilon).

Un autre élément perturbateur est dû au choix d'un modèle qui ne colle pas parfaitement à la réalité. Ce qui se traduit par des résidus. Illustrons ce terme barbare : une régression sur tendance logarithmique conviendrait très bien pour modéliser telle liaison mais on opte bêtement pour la régression linéaire. Ce choix implique l’existence de résidus. Avec sa circonférence de 1m80 cet arbre est âgé de soixante ans mais notre régression nous indique 50. La partie résiduelle de cette observation est donc de 10.

arbre

Tout modèle étant simplificateur, l'existence des résidus est tout à fait normale. Entre plusieurs méthodes ou valeurs de paramètres, on choisit le modèle qui les minimise (d'autres critères s'ajoutant à celui-ci, notamment la robustesse). Graphiquement, si un point se situe au-dessous de la droite de régression empirique, le résidu associé à cette observation est négatif et inversement s'il la survole. Évidemment, il s'agit là aussi de v.a. On fait plusieurs hypothèses sur les résidus. Ceux-ci sont sont notés \(e.\)

Par hypothèse, les erreurs ne sont pas autocorrélées (nullité de la matrice des variances-covariances) alors que les résidus peuvent l’être.

On visualise aisément si le choix d'un modèle linéaire n'est pas le bon. Si le nuage de points des résidus montre une certaine structure, alors il faut refaire le travail pour s'orienter vers un modèle non linéaire.

Estimateurs

La RLS nous fournit l’expression d’une fonction affine dont l'équation est de type \(f(x) = ax + b\). Toutefois, en statistiques, on met plus l'accent sur les valeurs prises par la variable expliquée que par la relation (toujours visualisée graphiquement) ; on n'emploie donc pas l'expression fonction affine mais équation de droite \(y = ax + b\).

Si l'équation a été établie à partir d'un échantillon, les paramètres \(a\) et \(b\) sont des estimateurs dès lors qu'ils ambitionnent de représenter une liaison dans la population. Ce sont donc, eux aussi, des variables aléatoires. Ils sont sans biais (les démonstrations se trouvent en page d'estimateurs de la RLS).

Pour indiquer leur qualité de v.a, on les affuble d'accents circonflexes prononcés « chapeau », ce qui les différencie des paramètres réels qui vont tête nue. Toute valeur \(y_i\) vérifie donc l’égalité \({\widehat{y_i}} = \widehat a{x_i} + \widehat b + {\varepsilon _i}\)

Par hypothèse, le « bruit » \(\varepsilon \) suit une loi normale d’espérance nulle. Globalement, les erreurs sont plus ou moins importantes et le modèle se caractérise donc par un troisième paramètre qui est leur variance (\(\sigma^2\)). Si l’on a en tête le théorème de König, il paraît évident que la variance des erreurs se résume à l’espérance de leurs carrés.

Le calcul des paramètres

Rappelons le moyen de calculer les paramètres dans le cadre d'une relation déterministe (la démonstration illustre la page sur les moindres carrés) :

\(a = \frac{{{\sigma _{xy}}}}{{{\sigma _x}^2}}\) et \(b = \overline y - a\overline x \).

Nous avons vu que les estimateurs de ces paramètres étaient sans biais mais quid de leurs variances ? Là aussi, des démonstrations permettent de les estimer mais elles font intervenir \(\sigma^2\) qui est inconnue. Qu’à cela ne tienne, estimons-la…

Mais comment savoir si les données ont été correctement collationnées ? Il faut supposer que le modèle établi reflète bien le mystérieux modèle qui ambitionne de mettre la réalité en équation. Ainsi, on considère que les erreurs sont identiques aux résidus (surtout ne soyez pas trop dubitatif en constatant l'avalanche d'hypothèses qui président aux régressions. Si cette méthode est si utilisée, c'est bien que le cadre n'est pas aussi rigide qu'il en a l'air) ...

Bref, cette nouvelle hypothèse nous permet de déterminer un estimateur de leur variance, \(\sigma^2\), le carré moyen des erreurs.

\(\displaystyle{{\sigma ^2} = \frac{{\sum\nolimits_{i = 1}^n {{{\left( {{y_i} - {{\widehat y}_i}} \right)}^2}} }}{{n - 2}}}\)

C’est donc la somme des carrés des résidus divisée par \(n - 2\) Elle apparaît dans le tableau de l'ANOVA. La variance de \(\widehat a\) peut alors être établie :

\(\displaystyle{{\sigma _{\widehat a}}^2 = \frac{{{\sigma ^2}}}{{\sum\nolimits_{i = 1}^n {{{\left( {{x_i} - \overline x } \right)}^2}} }}}\)

Quant à la variance de \(\widehat b\), elle est égale à…

\(\displaystyle{{\sigma _{\widehat b}}^2 = \frac{{{\sigma ^2}\sum\nolimits_{i = 1}^n {{x_i}^2} }}{{n\sum\nolimits_{i = 1}^n {{{\left( {{x_i} - \overline x } \right)}^2}} }}}\)

Les écarts-types des estimateurs sont habituellement fournis par les logiciels, dont les tableurs (voir l’état d’Excel avec l'exemple de RLS). Il est évident que plus un paramètre a une dispersion forte, moins il est précis et moins bonne est la qualité du modèle. Ces écarts-types permettent de construire des intervalles de prévision.

Quant à la covariance entre les deux estimateurs, elle est du signe contraire à la moyenne des \(x_i\). Dans le cas le plus courant (variable explicative à valeurs positives), elle est donc négative. C’est parfaitement logique. Si deux nuages de points présentent un même barycentre, la droite des moindres carrés qui montre la pente la plus raide (\(a\) élevé) a l’ordonnée à l’origine la plus basse (\(b\) faible) et vice versa.

\(\displaystyle{{\mathop{\rm Cov}} \left( {\widehat a,\widehat b} \right) = - \frac{{\overline x {\sigma ^2}}}{{\sum\nolimits_{i = 1}^n {{{\left( {{x_i} - \overline x } \right)}^2}}} }}\)

Si l’on souhaite que ces deux paramètres soient parfaitement décorrélés, il faut centrer la variable explicative.

Ajoutons que la covariance entre erreurs et \(\widehat a\) est nulle. Bien entendu, puisqu’il y a estimation d’une variance et hypothèse de normalité, il y a possibilité d’établir des intervalles de confiance. C’est fou ce qu’on peut déduire d’un simple nuage de points, même très petit…

Quant à la variance des résidus, elle n’est pas estimée puisqu’elle est calculée… Elle ne peut pas être supérieure à la variance des erreurs.

erreur vs résidu