Découverte du nuage de points
Cette page s’adresse aux élèves qui sont déjà familiarisés avec la notion de série statistique à un caractère, c’est-à-dire capables de transformer une triste liste de chiffres en magnifiques graphiques qui en dévoilent la structure et en paramètres du plus grand intérêt (moyenne, médiane, écart-type…). Après de tels traitements, il est alors possible de se faire une bonne idée d’une population au regard du caractère étudié, voire de comparer plusieurs populations entre elles. Mais les statistiques offrent beaucoup plus dès lors qu’on n’étudie pas UN caractère mais DEUX simultanément. Parce que là, c’est carrément un univers de découvertes qui s’offre à nous.
Ayez la tête dans les nuages
Le type de graphique permettant de représenter une population statistique à deux caractères est le nuage de points. Chaque point indique le positionnement d'une observation en fonction des deux caractères (l'un figurant en abscisse et l'autre en ordonnée).
La plupart du temps, on ne se contente pas d’observer l’emplacement de points dans un repère. En effet, ceux-ci sont accompagnés d’une droite d’ajustement qui résume plus ou moins bien le nuage (parfois on peut préférer une courbe mais nous nous en tiendrons ici aux droites). Son équation modélise le lien qui existe peut-être entre les deux caractères. Vous pouvez la déterminer vous-même (voir la régression linéaire) mais les logiciels de statistiques, les calculatrices graphiques et les tableurs sont parfaitement capables d’en donner l’équation.
Si le nuage est bien résumé par « sa » droite d’ajustement, c’est-à-dire si les points ne sont pas trop éparpillés autour, alors il devient possible d’établir des prévisions ou d’estimer des valeurs manquantes. Tout ça grâce à l’équation de la droite.
Réalisation
Comment placer les axes pour définir le repère ? Très souvent, on suppose qu’un caractère peut en expliquer un autre. Rien n’est prouvé a priori mais c’est une question de bon sens. Le caractère qui peut expliquer l’autre est représenté sur l’axe des abscisses. Celui que l’on étudie figure en ordonnée. Précisons qu’il n’est pas nécessaire que les axes se croisent à l’origine : ci-dessous, un exemple montre l’évolution d’une population en fonction des années ; l’axe des ordonnées croise celui des abscisses à 30.
Nous distinguerons deux configurations.
Première configuration
Dans ce cas de figure, toute valeur prise par la variable qui figure en abscisse n’a qu’une seule image. Cela revient à définir une fonction. Par exemple une évolution en fonction du temps : à chaque date correspond une seule observation.
Remarquez que dans ce cas il ne s’agit pas d’une « vraie » séries à deux caractères. Elle pourrait aussi bien être représentée par un diagramme en barres ou par une courbe. Alors pourquoi un nuage de points ?
D’abord pour une raison pratique : les écarts entre les valeurs du caractère explicatif (représenté en abscisse) ne sont pas nécessairement les mêmes pour toute la série alors qu’en principe les autres types de graphiques sont construits sur des écarts constants. Des exceptions jouent les trouble-fêtes, comme la courbe cumulée des effectifs. Mais justement, si vous en tracez une avec Excel, c'est en sélectionnant le nuage de points reliés du menu graphiques et non un type de courbe !
Ensuite, on a l’habitude de tracer les droites d’ajustement traversant un nuage de points plutôt qu’un autre type de graphe. Pourtant d’autres représentations ne sont pas rares, par exemple une courbe et sa droite d’ajustement (illustration en page tendance). Mais dans le cadre d’une initiation à la régression, il est plus commode de s’habituer au nuage.
Ainsi les élèves de terminales technologiques travaillent ce type de graphique. L’exercice qui suit est tiré d’une épreuve du bac STMG (Polynésie, juin 2016).
Exercice
- À partir des recensements effectués tous les dix ans, on a établi le tableau suivant qui donne l’évolution de la population française en millions d’individus entre 1851 et 1911. Peu de données sont disponibles pour l’année 1871.
Pop. 1851 | Pop. 1861 | Pop. 1881 | Pop. 1891 | Pop. 1901 | Pop. 1911 | |
Rang de la décennie : \(x_i\) | 0 | 1 | 3 | 4 | 5 | 6 |
Pop. en millions : \(y_i\) | 35 | 37,4 | 37,7 | 39,9 | 39 | 39,6 |
- Approximation de la population en 1871
- Placer sur le graphique donné en annexe le nuage de coordonnées \((x_i\,;y_i).\)
- Donner une équation de la droite d’ajustement affine de \(y\) en fonction de \(x\) obtenue par la méthode des moindres carrés. Les coefficients seront arrondis au millième.
- On décide d’ajuster ce nuage de points par la droite \((d)\) d’équation \(y = 0,7x + 35,9.\) Tracer cette droite sur ce même graphique.
- À l’aide de ce modèle, estimer la population en 1871.
Corrigé commenté
Pour se mettre dans l'ambiance de l'époque, foule devant le Panthéon en 1885 (musée Carnavalet).
1. Le graphe ci-dessous a été réalisé avec Excel. Six points ont été placés, qui correspondent aux six observations. Dans les sujets du bac, les années sont toujours exprimées en rangs pour ne pas alourdir les calculs. Ainsi à l’année 1851 correspond le rang 0. Donc le point d’abscisse 0 a pour ordonnée 35 (unité de mesure : million d’habitants).
2.3.4. Les questions suivantes sont traitées en page de droite d’ajustement.
Ce sujet montre une série statistique simple mais la problématique d’ajustement nous la fait considérer comme une série de six observations caractérisée par deux variables, l’année et la population. C’est une façon de voir les choses pas évidente du tout.
Seconde configuration
Si l’on étudie une population selon les deux caractères taille et poids, il est possible que certains individus aient la même taille ou le même poids.
Ici, c’est bien sûr la taille qui serait représentée en abscisse (on peut considérer que la taille a une influence sur le poids mais l’inverse est impossible). Donc deux personnes ayant la même taille mais des poids différents seraient représentés par deux points l’un au-dessus de l’autre.
Tout autre graphique que le nuage de points est alors inenvisageable.
Et lorsque deux observations sont strictement identiques ? Certains logiciels permettent une double visualisation, soit en ajoutant un très petit aléa pour que les points ne se situent pas exactement où ils devraient être, soit en jouant sur la transparence (par exemple deux points de mêmes coordonnées avec une transparence de 0,3 se traduisent par un point de transparence 0,6, donc plus opaque).
Graphiques à bulles
Le graphique à bulles (bubble chart) est un nuage de points amélioré. Il ne figure pas dans les programmes de maths du secondaire.
Ici les points sont des disques dont les diamètres sont proportionnels aux effectifs.