Droite d'ajustement entre deux caractères
Avertissement : la modeste ambition de cette page est d’apporter une initiation très basique à la régression statistique. Rédigée à l’attention des élèves de terminale technologique, elle exclut toute formule mathématique. En revanche, elle donne le mode d’emploi pour obtenir l’équation d’une droite d’ajustement avec Excel (note : si vous avez un niveau statistique plus élevé que celui requis pour comprendre cette page, vous pouvez vous rendre sur celle qui traite de la RLS avec Excel). Pour l’utilisation des calculatrices, voir la régression linéaire simple avec calculatrices TI et Casio.
Qu’est-ce qu’une droite d’ajustement ?
Graphiquement, un nuage de points peut montrer une relation entre deux caractères statistiques. Plus les points sont alignés de façon rectiligne, mieux ils peuvent être résumés par une fonction affine. Ci-dessous, on peut procéder à un ajustement avec le premier nuage de gauche mais si vous êtes en présence de celui de dessous, laissez tomber.
La représentation de la fonction qui résumerait le nuage est la droite qui passe au plus près des points. On pourrait penser que plusieurs droites conviendraient mais on retiendra celle qui minimise la somme des carrés des distances entre elle et chaque point. C’est pourquoi on l’appelle aussi « droite des moindres carrés ».
Le point moyen est le point qui marque la valeur moyenne du caractère en abscisse et la valeur moyenne du caractère en ordonnée. Généralement, il ne correspond donc pas à une valeur observée. Mais la droite des moindres carrés passe par lui.
Les graphiques ci-dessus ont été réalisés avec Excel. Il serait possible de calculer l’équation de la droite grâce à plusieurs opérations (voir les calculs de paramètres d'une régression linaire) mais on optera pour une opération moins fatigante : un clic droit sur un point (afin de sélectionner toute la série) faisant apparaître le menu contextuel puis le choix Ajouter une courbe de tendance… Surgit alors un menu proposant des options et on coche Linéaire. On ne se prive pas non plus de cocher Afficher l’équation sur le graphique.
On obtient la droite qui traverse le nuage au plus près des points ainsi que son équation. Celle-ci est particulièrement importante puisque c’est elle qui modélise la relation entre les deux variables. Si par exemple l’axe des abscisses représente le temps, on peut remplacer \(x\) dans son équation par une date future et on détermine la valeur qui devrait être observée pour cette date. C’est d’ailleurs ce principe qui s’applique pour toute fonction : on connaît une expression \(f(x)\) et on en déduit la valeur de \(f(a)\), \(a\) étant un nombre choisi, appartenant à l’ensemble de définition de \(f\). Sauf que là, c’est du concret.
Illustrons ceci avec un sujet de bac STMG (Polynésie, juin 2016).
Exercice
- À partir des recensements effectués tous les dix ans, on a établi le tableau suivant qui donne l’évolution de la population française en millions d’individus entre 1851 et 1911. Peu de données sont disponibles pour l’année 1871.
Population en 1851 | Population en 1861 | Population en 1881 | Population en 1891 | Population en 1901 | Population en 1911 | |
Rang de la décennie : xi | 0 | 1 | 3 | 4 | 5 | 6 |
Population en millions : yi | 35 | 37,4 | 37,7 | 39,9 | 39 | 39,6 |
- Approximation de la population en 1871
- Placer sur le graphique donné en annexe le nuage de coordonnées \(({x_i}\,;{y_i})\).
- Donner une équation de la droite d’ajustement affine de y en fonction de x obtenue par la méthode des moindres carrés. Les coefficients seront arrondis au millième.
- On décide d’ajuster ce nuage de points par la droite \((d)\) d’équation \(y = 0,7x + 35,9\). Tracer cette droite sur ce même graphique.
- À l’aide de ce modèle, estimer la population en 1871.
Corrigé commenté
1. Cette question est traitée en page de nuage de points.
2. L’équation est fournie par la calculatrice. Exemple ci-dessous avec une TI-83 Premium-CE.
Sur cette fenêtre apparaissent le coefficient directeur de la droite \(a\) et l’ordonnée à l’origine \(b\). Ainsi l’équation de la droite d’ajustement est \(y = 0,701x + 35,881\) (coefficient arrondis au millième puisque nous sommes respectueux de l’énoncé).
3. Nuage de points et tracé de la droite
4. L'énoncé demande de procéder à une interpolation, c'est-à-dire d'estimer une valeur manquante entre d'autres qui sont connues (l'estimation d'une valeur au-delà de la série s'appelle quant à elle une extrapolation).
L’année 1871 correspond au rang 2. Pour cette valeur de \(x\), nous obtenons \(y = 0,7 × 2 + 35,9 = 37,3\). On estime la population française à 37,3 millions d’individus en 1871.