La droite des moindres carrés

Moindres carrés d'une relation déterministe

Au début du dix-neuvième siècle, la communauté scientifique fut le théâtre d'une querelle de paternité. Qui était l'inventeur de la méthode des moindres carrés ? Gauss, qui l'utilisa avec brio en astronomie, ou Legendre ? Bon, il est un peu tard pour prendre position mais il est grand temps de percer les mystères d'une technique indispensable au domaine des statistiques.

Note : cette page montre surtout des démonstrations. Pour un exemple de calcul, voir la page calculs des paramètres d'une régression simple.

 

Présentation

Il existe plusieurs façons de démontrer en quoi la formule des moindres carrés fournit les meilleurs estimateurs d'une régression linéaire simple (RLS). Celle qui est employée ici utilise les dérivées partielles. Vous la trouverez dans toutes les bonnes librairies mais s'il pleut, si vous êtes fatigué et si votre budget est serré, inutile de vous y rendre car la voici.

La droite des moindres carrés étant la représentation d'une fonction affine, les paramètres à estimer sont un coefficient directeur \(a\) et une ordonnée à l'origine \(b\). Rappelons que la droite recherchée est celle qui résume au mieux le nuage de points des \(n\) observations.

droite des moindres carrés

Les \(n\) points \(M({x_i}\,;{y_i})\) étant projetés sur la droite parallèlement à l'axe des ordonnées, leurs projections ont bien sûr pour coordonnées \(({x_i}\,;a{x_i} + b)\). Appelons SCR la somme des carrés des écarts par rapport à cette droite (un écart étant matérialisé ci-dessus par la double flèche noire) et \(H_i\) la projection sur la droite du point représentant l'observation \(i\). Le but du jeu est de minimiser SCR, d'une part par rapport à \(a\) et d'autre part par rapport à \(b\).

Remarque : si l'on s'attache aux CARRÉS des distances et non aux écarts eux-mêmes, c'est parce que cela permet des développements non vus sur cette page mais néanmoins indispensables (décomposition en variance expliquée et résiduelle et donc emploi du coefficient de détermination...).

 

Démonstrations

SCR se présente ainsi :

\(SCR = \sum\limits_{i = 1}^n {{{\overline {HM} }^2}} \) \( = {\sum\limits_{i = 1}^n {\left( { - a{x_i} - b + {y_i}} \right)} ^2}\)

C'est une fonction de deux variables \(a\) et \(b\) dont on cherche le minimum.

Occupons-nous de \(b\). Pour celà, il faut considérer \(-ax + y\) comme une constante. Nous savons depuis la classe de première qu'une fonction admet un extrêmum lorsque sa dérivée est nulle. Ici, nous avons une dérivée partielle à annuler.

La dérivée d'une fonction de la forme \(u(x)^2\) est \(2u’(x)u(x)\) (Cf. page opération sur fonctions dérivables) et en l’occurrence \(u’ = -1\) puisque \(u = -b\; +\) constante. Donc :

\(\frac{{\partial SCR}}{{\partial b}} = - 2\sum\limits_{i = 1}^n {\left( { - a{x_i} - b + {y_i}} \right) = 0} \)

La suite de la démonstration est encore plus simple. Éliminons -2 vu que c’est forcément le facteur « somme » qui est nul puis décomposons ce dernier. Au passage, on notera que cette formule a une signification intéressante : la somme des résidus (c'est-à-dire des écarts entre les points et leurs projections) est nulle.

\( - a\sum\limits_{i = 1}^n {{x_i} - } nb + \sum\limits_{i = 1}^n {{y_i}} = 0\)

Isolons \(nb\) et divisons tout par \(n\). La division d’une somme par \(n\) est bien sûr une moyenne arithmétique, ce que nous obtenons pour \(x\) et pour \(y\). Mission accomplie :

\(\frac{{nb}}{n} = - a\frac{{\sum {{x_i}} }}{n} + \frac{{\sum {{y_i}} }}{n}\), donc \(b = - a\overline x + \overline y \)

Occupons-nous à présent de \(a\), coefficient directeur de la droite. À partir de la première formule, remplaçons \(b\) par l’expression que nous venons de trouver, puis séparons les termes en \(x\) de ceux en \(y\) :

\(SCR = {\sum\limits_{i = 1}^n {\left( { - a{x_i} + a\overline x - \overline y + {y_i}} \right)} ^2}\)

\( \Leftrightarrow SCR = {\sum\limits_{i = 1}^n {\left[ { - a\left( {{x_i} - \overline x } \right) + \left( {{y_i} - \overline y } \right)} \right]} ^2}\)

Le développement de cette identité remarquable a des airs effrayants, comme ça, mais la dérivation sera plus simple :

\(SCR = \sum\limits_{i = 1}^n {\left[ {{a^2}{{\left( {{x_i} - \overline x } \right)}^2}} \right]} \) \( +\; 2\sum\limits_{i = 1}^n {\left[ { - a\left( {{x_i} - \overline x } \right)\left( {{y_i} - \overline y } \right)} \right]} \) \( +\; {\sum\limits_{i = 1}^n {\left( {{y_i} - \overline y } \right)} ^2}\)

Entrons dans le vif du sujet (expression curieuse, comme si nous étions auparavant dans sa mort…). Posons la seconde dérivée partielle à annuler.

\(\frac{{\partial SCR}}{{\partial a}} = 0\)

Laissons tomber le troisième et dernier élément de la somme qui, par rapport à \(a\), est une constante. La dérivée partielle apparaît dans toute sa splendeur :

\(\sum\limits_{i = 1}^n {\left[ {2a{{\left( {{x_i} - x} \right)}^2}} \right]} - 2\sum\limits_{i = 1}^n {\left( {{x_i} - \overline x } \right)\left( {{y_i} - \overline y } \right) = 0} \)

Isolons \(a\) :

\(a = \frac{{2\sum {\left( {{x_i} - \overline x } \right)\left( {{y_i} - \overline y } \right)} }}{{2\sum {{{\left( {{x_i} - \overline x } \right)}^2}} }}\)

Il faut alors remarquer que si nous divisons le numérateur et le dénominateur par \(2n\) nous faisons apparaître l’expression de la covariance et celle de la variance de \(x\).

Nous avons bien obtenu l’expression des deux paramètres d’une droite des moindres carrés : \(a = \frac{{{\sigma _{xy}}}}{{{\sigma _x}^2}}\) et \(b = \overline y - a\overline x \)

 

Propriété

La droite des moindres carrés passe par le centre de gravité \(G\left( {\overline x \,;\overline y } \right)\) du nuage de points.

 

mosaïque