Le calcul des paramètres d'une RLS

Calcul manuel des paramètres d'une régression

 

Pour étudier l'éventuel lien existant entre deux variables statistiques, la régression linéaire simple et le coefficient de corrélation sont abondamment utilisés. À juste titre d’ailleurs. Mais comment construire « à la main » une droite d’ajustement et un coefficient de corrélation ?

Bien sûr, n’importe quel tableur, logiciel de statistiques ou même calculatrice vous fournit immédiatement leurs valeurs sans que vous vous cassiez la tête. Mais supposons que vous souhaitiez malgré tout soulever le capot pour apprécier cette belle mécanique…

 

Rappels

Le coefficient de corrélation linéaire, ou de Pearson, noté \(r\) et établi sur \(n\) observations, est égal à la covariance entre une variable explicative \(x\) et une variable à expliquer \(y\), rapportée au produit de leurs écarts-types. Compris entre -1 et 1, il mesure l’intensité de la relation entre les deux variables statistiques.

\[r = \frac{{{\sigma _{xy}}}}{{{\sigma _x}{\sigma _y}}}\]

Pour bien détailler…

\[r = \frac{{\sum\limits_{i = 1}^n {\left( {{x_i} - \overline x } \right)\left( {{y_i} - \overline y } \right)} }}{{\sqrt {\sum\limits_{i = 1}^n {{{\left( {{x_i} - \overline x } \right)}^2}\sum\limits_{i = 1}^n {{{\left( {{y_i} - \overline y } \right)}^2}} } } }}\]

Autre façon de le calculer : c’est la racine carrée du produit entre le coefficient directeur de la droite d’ajustement de \(x\) en \(y\) et de celui de la droite d’ajustement de \(y\) en \(x\) (calcul que nous ferons ci-dessous).

Le coefficient de régression est le coefficient directeur de la droite de régression empirique (ajustement de \(y\) en \(x\)).

\[a = \frac{{\sum\limits_{i = 1}^n {\left( {{x_i} - \overline x } \right)\left( {{y_i} - \overline y } \right)} }}{{\sum\limits_{i = 1}^n {{{\left( {{x_i} - \overline x } \right)}^2}} }}\]

L’ordonnée à l’origine en découle : \(b = \overline y  - a\overline x \)

 

Exemple

L’exemple qui suit a été exhumé d’une épreuve du bac des années 80, filière économique.

Au début de chaque mois une entreprise commerciale consacre une certaine somme à des opérations publicitaires. Dans le tableau ci-dessous sont récapitulés, pour le premier semestre 1984, les sommes consacrées à ces opérations et les montants des ventes.


Mois
Ventes en milliers de F : xi Frais de publicité en milliers de F : yi
Janvier 38 2,4
Février 42 3,1
Mars 42 3,1
Avril 39 2,6
Mai 40 3,2
Juin 45 3,6
TOTAL 246 18

Commentaire préalable : attention au sens de cette problématique. On considère que la publicité varie en fonction des ventes alors que la logique voudrait que ce soit l’inverse !

Une première instruction portait sur la représentation graphique. Elle figure en bas de page (réalisation avec Geogebra ; bon d'accord, ce n'est pas vraiment fait à la main comme annoncé...).

Instruction 2 : donner une équation de la droite de régression \(D\) de \(y\) en \(x\), en rappelant les formules utilisées pour faire le calcul. Un tableau récapitulant les étapes intermédiaires de calcul est exigé.

  xi yi xi² yi² xiyi
janv 38 2,4 1 444 5,76 91,2
févr 42 3,1 1 764 9,61 130,2
mars 42 3,1 1 764 9,61 130,2
avr 39 2,6 1 521 6,76 101,4
mai 40 3,2 1 600 10,24 128,0
juin 45 3,6 2 025 12,96 162,0
SOMME 246 18 10 118 54,94 743,0

Calcul des moyennes : \(\overline x  = \frac{{246}}{6} = 41\) et \(\overline y  = \frac{{18}}{6} = 3\).

Le calcul de la covariance (au numérateur du coefficient de régression et du coefficient de corrélation) peut être obtenu de deux façons. Celle qui apparaît dans les formules n’est pas la plus pratique car elle s’appuierait sur des colonnes à rajouter au tableau (elle fait l'objet de la page de calcul de la covariance). L’autre technique consiste à calculer la moyenne du produit des valeurs de deux variables moins le produit des deux moyennes.

\({\sigma _{xy}} = \frac{{743}}{6} - 41 \times 3 = 0,833...\)

De même pour les variances nous appliquerons le théorème de König (la moyenne des carrés moins le carré de la moyenne).

\({\sigma _x}^2 = \frac{{10118}}{6} - {41^2} = 5,333...\)
\({\sigma _y}^2 = \frac{{54,94}}{6} - {3^2} = 0,1566...\) (ce calcul ne servira que pour la question suivante).

Ainsi, le coefficient de la droite d’ajustement est \(a = \frac{{{\sigma _{xy}}}}{{{\sigma _x}^2}} = 0,15625\).

D’où \(b \approx 3 - 0,15625 \times 41 \approx  - 3,41\).

\(D\) a pour équation \(y = 0,156 x - 3,41\)

La question suivante portait sur le coefficient de corrélation : soit \(\Delta\) la droite de régression de \(x\) en \(y\). Son équation est \(y = 5,32y + 25,04\). Représenter les droites \(D\) et \(\Delta\) sur le graphique établi en 1). Quel est le coefficient de corrélation linéaire entre \(x\) et \(y\) ? Que peut-on en conclure ?

L’énoncé suggérait de trouver le coefficient \(r\) comme étant la racine carrée du produit des deux coefficients de régression (puisque \(r > 0\)).

\(r = \sqrt {aa'}  \approx \sqrt {0,156 \times 5,32}  \approx 0,91\)

Sans connaître \(a’\) le calcul aurait été le suivant :

\(r = \frac{{{\sigma _{xy}}}}{{\sqrt {{\sigma _y}^2 \times {\sigma _y}^2} }} \approx 0,91\)

On remarque que \(r\) est proche de 1. La corrélation est bonne.