Techniques et concepts de l'entreprise, de la finance et de l'économie 
(et fondements mathématiques)

Le modèle stochastique de RLS

logo

 

 

 

 

 

 

 

 

 

 

Paramètres et erreurs du modèle linéaire simple

Sur cette page faisons plus ample connaissance avec les paramètres de la régression linéaire simple (RLS). Rappelons le contexte.

On cherche une liaison qui existerait entre deux variables numériques, que l'on voudrait résumer par une relation fonctionnelle mais qui restera imparfaite. Par exemple on tente de déterminer l’âge d’un arbre (variable expliquée) par la seule circonférence de son tronc (variable explicative). L'âge de l'arbre i dont la circonférence mesure x est donc yi, valeur prise par une variable aléatoire (v.a) Yi.

La RLS consiste à modéliser une relation simplifiée entre les deux variables grâce à une équation. En l'occurrence une équation de droite, qui repose sur deux paramètres (coefficient directeur et ordonnée à l'origine). La régression va cependant plus loin puisqu'elle en intègre un troisième, comme nous le verrons.

À une même valeur de x peuvent correspondre plusieurs valeurs de y car un élément perturbateur sera toujours présent. Plusieurs arbres peuvent avoir des circonférences identiques mais des âges différents (à cause du sol, de la météo, des parasites…). De plus, un modèle de régression est le plus souvent établi à partir d’un échantillon aléatoire. Inutile de mesurer TOUS les troncs d’arbre.

Ce problème s'étend aux observations de séries temporelles : on considère qu’elles constituent aussi un échantillon puisque le modèle sera extrapolé aux observations à venir. En revanche, on ne peut pas trouver deux mêmes valeurs de y pour une même valeur de x (chaque xi correspond à une date unique).

Notez que le principe de la modélisation est échafaudé sur l’HYPOTHÈSE qu’une relation existe bel et bien. Ce n’est pas pour autant qu'elle est bâtie sur du sable puisque sa pertinence sera validée par des mesures statistiques (coefficient de corrélation, test de Student). Par ailleurs, liaison ne signifie pas causalité. Pour reprendre notre exemple, on part d'une observation (circonférence des troncs) pour estimer le passé (par exemple l'âge d'une forêt) alors qu'en toute logique c'est la circonférence d'un arbre qui est plus ou moins expliquée par son âge.

Les deux paramètres que fournirait une RLS dans un cadre descriptif deviennent donc deux v.a. dans le cadre probabiliste.

Erreurs et résidus

Définissons deux concepts proches.

On suppose qu’un vrai modèle existe pour représenter la réalité. Mais des ERREURS de mesure polluent les observations : il y a la donnée fausse, provenant par exemple d’un répondant qui n'ose avouer à cette belle enquêtrice qu'il ne se brosse jamais les dents ou d’un enquêteur pressé qui relève mal une réponse... Il y a la perte d’information, évidente lorsqu’on répartit des données quantitatives dans des classes de valeurs… Ces erreurs sont donc des v.a et on est un peu obligé de faire l'hypothèse que leur espérance est nulle (pour faire court, une erreur dans un sens sera contrebalancée par une erreur dans l'autre sens). Sur certaines enquêtes, on sait à l'avance que ce n'est pas le cas mais on n'approfondira pas ici la correction de ce type de biais. On suppose aussi que les erreurs suivent une loi normale. Elles sont notées ε (epsilon).

Un autre élément perturbateur est dû au choix d'un modèle qui ne colle pas parfaitement à la réalité. Ce qui se traduit par des RÉSIDUS. Illustrons ce terme barbare : une régression sur tendance logarithmique conviendrait très bien pour modéliser telle liaison mais on opte bêtement pour la régression linéaire. Ce choix implique l’existence de résidus. Avec sa circonférence de 1m80 cet arbre est âgé de soixante ans mais notre régression nous indique 50. La partie résiduelle de cette observation est donc de 10.

Tout modèle étant simplificateur, l'existence des résidus est tout à fait normale. Entre plusieurs méthodes ou valeurs de paramètres, on choisit le modèle qui les minimise (d'autres critères s'ajoutant à celui-ci, notamment la robustesse). Graphiquement, si un point se situe au-dessous de la droite de régression empirique, le résidu associé à cette observation est négatif et inversement s'il la survole. Évidemment, il s'agit là aussi de v.a. On fait plusieurs hypothèses sur les résidus. Ceux-ci sont sont notés e.

Par hypothèse, les erreurs ne sont pas autocorrélées (nullité de la matrice des variances-covariances) alors que les résidus peuvent l’être.

Erreurs et résidus sont des variables aléatoires.

Estimateurs

La RLS nous fournit l’expression d’une fonction affine, de type f(x) = ax + b. Toutefois, en statistiques, on met plus l'accent sur les valeurs prises par la variable expliquée que par une relation (toujours visualisée graphiquement) ; on n'emploie donc pas l'expression fonction affine mais équation de droite y = axb.

Si l'équation a été établie à partir d'un échantillon, les paramètres a et b sont des estimateurs dès lors qu'ils ambitionnent de représenter une liaison dans la population entière. Ce sont donc eux aussi des variables aléatoires. Ils sont sans biais (les démonstrations se trouvent en page estimateurs de la RLS).

Pour indiquer la qualité de v.a des paramètres, on les affuble d'accents circonflexes prononcés « chapeau », afin de les différencier des paramètres réels qui vont tête nue. Toute valeur yi vérifie donc l’égalité suivante :

équation de la RLS

Par hypothèse, ce « bruit » ε suit une loi normale d’espérance nulle. Globalement, les erreurs sont plus ou moins importantes et le modèle se caractérise donc par un troisième paramètre qui est leur variance (σ²). Nous avons vu que la moyenne des erreurs est supposée nulle. Si l’on a en tête le théorème de Koening, il paraît évident que la variance des erreurs se résume à l’espérance de leurs carrés.

Le calcul des paramètres

Rappelons le moyen de calculer les paramètres dans le cadre d'une relation déterministe (la démonstration illustre la page moindres carrés) :

estimateurs

Nous avons vu que les estimateurs de ces paramètres étaient sans biais mais quid de leurs variances ? Là aussi, des démonstrations permettent de les estimer mais elles font intervenir σ² qui est inconnue. Qu’à cela ne tienne, estimons-la…

Oui mais voilà, comment savoir si les données ont été correctement collationnées ? Mystère. Il faut supposer que le modèle calculé reflète bien le mystérieux modèle qui met la réalité en équation. Du coup, on considère que les erreurs sont égales aux résidus. Note : surtout ne soyez pas trop dubitatif en constatant l'avalanche d'hypothèses qui président aux régressions. Si cette méthode est si utilisée, c'est bien que le cadre n'est pas aussi rigide qu'il en a l'air...

Bref, cette nouvelle hypothèse nous permet de déterminer un estimateur de σ² appelé erreur quadratique moyenne (MSE).

MSE

C’est donc la somme des carrés des résidus divisée par n – 2. Elle apparaît dans le tableau de l'ANOVA. La variance de â peut alors être établie :

variance de a

Quant à la variance de l’estimateur de b, elle est égale à…

variance de b

Les écarts-types des estimateurs sont habituellement fournis par les logiciels et les tableurs (voir l’état d’Excel en page exemple de RLS). Il est évident que plus un paramètre a une dispersion forte, moins il est précis et moins bonne est la qualité du modèle. Ces écarts-types permettent de construire des intervalles de prévision.

Quant à la covariance entre les deux estimateurs, elle est du signe contraire à la moyenne des xi. Dans le cas le plus courant (variable explicative à valeurs positives), elle est donc négative. C’est parfaitement logique. Si deux nuages de points présentent un même barycentre, la droite des moindres carrés qui montre la pente la plus raide (a élevé) a forcément l’ordonnée à l’origine la plus basse (b faible) et vice versa.

Si l’on souhaite que ces deux paramètres soient parfaitement décorrélés, il faut centrer la variable explicative.

covariance

Ajoutons que la covariance entre erreurs et â est nulle. Bien entendu, puisqu’il y a estimation d’une variance et hypothèse de normalité, il y a possibilité d’établir des intervalles de confiance. C’est fou ce qu’on peut déduire d’un simple nuage de points, même très petit…

Quant à la variance des résidus, elle n’est pas estimée puisqu’elle est calculée… Elle ne peut pas être supérieure à la variance des erreurs.

 

erreur vs résidu

 

© JY Baudot - Droits d'auteur protégés