Régression linéaire simple avec Excel
Une régression linéaire simple, évidemment disponible sur n’importe quel logiciel de statistiques, est réalisable avec un tableur.
Exemple
Prenons l’exemple théorique de l’hôtel club « Variance bleue » dont le directeur étudie la relation entre le nombre de transats mis à la disposition de ses clients et les recettes du bar (celui qui est en face de la piscine, où le mojito est super réussi…). Toute ressemblance avec un paramètre de régression existant ou ayant existé est purement fortuit.
date | transats | recette |
01 août | 17 | 255 |
02 août | 19 | 280 |
03 août | 18 | 274 |
04 août | 20 | 289 |
05 août | 22 | 336 |
06 août | 25 | 364 |
07 août | 19 | 285 |
08 août | 16 | 245 |
09 août | 24 | 360 |
10 août | 23 | 341 |
11 août | 21 | 316 |
12 août | 17 | 280 |
13 août | 18 | 240 |
14 août | 20 | 297 |
15 août | 24 | 355 |
Excel sans l’utilitaire d’analyse
Sélectionnez une plage de cinq lignes sur deux colonnes puis tapez =DROITEREG(C2:C16;B2:B16;;VRAI), du moins si la case « date » se trouve ligne 1 col 1 de la feuille de calcul. Attention, comme les résultats apparaissent dans une plage de cellules, ne pas taper sur « entrée » mais sur « Ctrl+Maj+Entrée ». Le « VRAI » en fin de formule signifie que vous désirez d’autres statistiques que les paramètres de l’équation de la droite (si vous n’en voulez pas, ne sélectionnez qu’une plage de deux cellules). Informations sur les estimateurs :
Le graphique est un nuage de points auquel on va « ajouter une courbe de tendance » puis sélectionner inéaire en cochant afficher l’équation sur le graphique et afficher le coefficient de détermination. Vous avez donc déjà compris à quoi correspondent certains chiffres ci-dessus puisque vous les retrouvez sur le graphique. Quant aux autres : 1,0905 est l’écart-type du coefficient de régression et 22,2343 est l’écart-type de la constante. 11,6644 est l'estimation de l'écart-type des erreurs. 166,4489 est la valeur du F (ce n’est pas ce qu’il y a de plus utile pour une régression simple), 13 est le nombre de degrés de liberté (\(15 - 1 - 1\)). Le nombre 22 646 représente la somme des carrés (pas non plus d’une grande utilité) et 1 768,77 est la somme des carrés des résidus.
Graphiquement, on détecte où sont ces fameux résidus. Ils sont d'autant plus importants que les points sont éloignés, dans le sens vertical, de la droite d'ajustement.
Sur cet exemple, on remarque que la corrélation est très bonne. Peut-être faudrait-il ajouter une variable météorologique pour expliquer quelques petits écarts. Nous serions alors dans le cadre d’une régression linéaire multiple. D’ores et déjà, on peut avec confiance ajouter des transats au bord de la piscine.
Utilitaire d’analyse
Par défaut, cet utilitaire n'est pas chargé. Cliquez sur Fichier dans le ruban puis Options puis Compléments, puis Atteindre. Cochez Analysis Toolpak. Ensuite, vous bénéficiez d'un groupe de commandes Analyse lorsque vous cliquez sur Données dans le ruban.
Avec ce complément, vous disposez de davantage d'informations (dans le menu des outils d'analyse, choisissez Régression linéaire).
Le premier coefficient est \(r\), le deuxième est \(R^2\) et le troisième est le \(R^2\) ajusté.
Et si vous avez coché les options Résidus et Résidus normalisés...
Les résidus doivent être normalement distribués et non structurés. Dans le cas contraire, le modèle peut être amélioré (régression non linéaire, par exemple).
Calculatrices
Un mode d'emploi figure en page de RLS avec calculatrices TI et Casio.