Techniques et concepts de l'entreprise, de la finance et de l'économie 
(et fondements mathématiques)

Le nuage de points

logo

 

 

 

 

 

 

 

 

 

 

Découverte du nuage de points

Cette page s’adresse à celles et ceux qui sont déjà familiarisés avec la notion de série statistique à un caractère, c’est-à-dire capables de transformer une triste liste de chiffres en magnifiques graphiques qui en dévoilent la structure et en paramètres du plus grand intérêt (moyenne, médiane, écart-type…). Après de tels traitements, il est alors possible de se faire une bonne idée d’une population au regard du caractère étudié, voire de comparer plusieurs populations entre elles. Mais les statistiques offrent beaucoup plus dès lors qu’on n’étudie pas UN caractère mais DEUX simultanément. Parce que là, c’est carrément un univers de découvertes qui s’offre à nous.

Le type de graphique permettant de représenter une population statistique à deux caractères est le nuage de points. Chaque point indique le positionnement d'une observation en fonction des deux caractères (l'un figurant en abscisse et l'autre en ordonnée).

La plupart du temps, on ne se contente pas d’observer l’emplacement de points dans un repère. En effet, ceux-ci sont accompagnés d’une droite d’ajustement qui résume plus ou moins bien le nuage. Son équation modélise le lien qui existe peut-être entre les deux caractères. Vous pouvez la déterminer vous-même (voir la page régression) mais les logiciels de statistiques, les calculatrices graphiques et les tableurs sont parfaitement capables d’en donner l’équation.

Si le nuage est bien résumé par « sa » droite d’ajustement, c’est-à-dire si les points ne sont pas trop éparpillés autour, alors il devient possible d’établir des prévisions ou d’estimer des valeurs manquantes. Tout ça grâce à l’équation de la droite.

Réalisation

Comment placer les axes pour définir le repère ? Très souvent, on suppose qu’un caractère peut en expliquer un autre. Rien n’est prouvé a priori mais c’est une question de bon sens. Le caractère qui peut expliquer l’autre est représenté sur l’axe des abscisses. Celui que l’on étudie figure en ordonnée. Précisons qu’il n’est pas nécessaire que les axes se croisent à l’origine : ci-dessous, un exemple montre l’évolution d’une population en fonction des années ; l’axe des ordonnées croise celui des abscisses à 30.

Nous distinguerons deux configurations.

Première configuration

Dans ce cas de figure, toute valeur prise par la variable qui figure en abscisse n’a qu’une seule image. Cela revient à définir une fonction. Par exemple une évolution en fonction du temps : à chaque date correspond une seule observation.

Remarquez que dans ce cas il ne s’agit pas d’une « vraie » séries à deux caractères. Elle pourrait aussi bien être représentée par un diagramme en barres ou par une courbe. Alors pourquoi un nuage de points ?

D’abord pour une raison pratique : les écarts entre les valeurs du caractère explicatif (représenté en abscisse) ne sont pas nécessairement les mêmes pour toute la série alors qu’en principe les autres types de graphiques sont construits sur des écarts constants. Des exceptions jouent les trouble-fêtes, comme la courbe cumulée des effectifs. Mais justement, si vous en tracez une avec Excel, c'est en sélectionnant le nuage de points reliés du menu graphiques et non un type de courbe !

Ensuite, on a l’habitude de tracer les droites d’ajustement traversant un nuage de points plutôt qu’un autre type de graphe. Pourtant d’autres représentations ne sont pas rares, par exemple une courbe et sa droite d’ajustement (illustration en page tendance). Mais dans le cadre d’une initiation à la régression, il est plus commode de s’habituer au nuage.

Ainsi les élèves de terminales de certaines filières technologiques travaillent ce type de graphique. L’exercice qui suit est tiré d’une épreuve du bac STMG (Polynésie, juin 2016).

Exercice

À partir des recensements effectués tous les dix ans, on a établi le tableau suivant qui donne l’évolution de la population française en millions d’individus entre 1851 et 1911. Peu de données sont disponibles pour l’année 1871.

  Population en 1851 Population en 1861 Population en 1881 Population en 1891 Population en 1901 Population en 1911
Rang de la décennie : xi 0 1 3 4 5 6
Population en millions : yi 35 37,4 37,7 39,9 39 39,6
Source : INSEE

Approximation de la population en 1871

  1. Placer sur le graphique donné en annexe le nuage de coordonnées (xi ; yi).
  2. Donner une équation de la droite d’ajustement affine de y en fonction de x obtenue par la méthode des moindres carrés. Les coefficients seront arrondis au millième.
  3. On décide d’ajuster ce nuage de points par la droite (d) d’équation y = 0,7x + 35,9. Tracer cette droite sur ce même graphique.
  4. À l’aide de ce modèle, estimer la population en 1871.

Corrigé commenté

1. Le graphe ci-dessous a été réalisé avec Excel. Six points ont été placés, qui correspondent aux six observations. Dans les sujets du bac, les années sont toujours exprimées en rangs pour ne pas alourdir les calculs. Ainsi à l’année 1851 correspond le rang. Donc le point d’abscisse 0 a pour ordonnée 35 (unité de mesure : million d’habitants).

annexe

2.3.4. Les questions suivantes sont traitées en page droite d’ajustement.

Ce sujet montre une série statistique simple mais la problématique d’ajustement nous la fait considérer comme une série de six observations caractérisée par deux variables, l’année et la population. C’est une façon de voir les choses pas évidente du tout.

Seconde configuration

Si l’on étudie une population selon les deux caractères taille et poids, il est possible que certains individus aient la même taille ou le même poids.

Ici, c’est bien sûr la taille qui serait représentée en abscisse (on peut considérer que la taille a une influence sur le poids mais l’inverse est impossible). Donc deux personnes ayant la même taille mais des poids différents seraient représentés par deux points l’un au-dessus de l’autre.

Tout autre représentation graphique que le nuage de points est alors impossible.

Graphiques à bulles

Dans une population donnée, des individus peuvent avoir la même taille ET le même poids. Ceci impacte le calcul de la droite d’ajustement mais graphiquement, le phénomène passe inaperçu. Sauf qu’on peut aussi représenter un nuage avec des points de diamètres différents (proportionnels aux effectifs).

 

nuages

 

© JY Baudot - Droits d'auteur protégés