Représentations graphiques des populations statistiques
En présence de nombreuses données, le cerveau humain a beaucoup de mal à en dégager la configuration. C'est un peu comme dresser la carte d'une région rien qu'en la parcourant à pied, sans instrument de mesure. En revanche, avec une représentation visuelle, tout s'éclaire en une seconde !
Un graphique est une représentation de données statistiques. Et s’il existe plusieurs types de données, il y a aussi différents types de graphiques. Cette page ne fera pas de vous un(e) expert(e) en data visualisation mais elle vous en présente les principaux modèles.
Si votre travail vous conduit à en produire, vous apprendrez également à respecter quelques règles (voir aussi le lien en bas de page).
Des graphiques qui ne sont pas interchangeables
Le diagramme circulaire, communément appelé « camembert », est à privilégier pour représenter des séries simples dont le caractère est qualitatif. Les parts du diagramme ont des aires qui sont proportionnelles aux effectifs de chaque modalité. Il est parfois représenté en trois dimensions (considéré comme plus esthétique dans le cadre de certaines publications) ou avec un secteur séparé des autres (lorsqu’on veut mettre une modalité particulière en exergue). Le diagramme semi-circulaire est privilégié pour montrer la composition d’un parlement en fonction des groupes politiques. Voir aussi le diagramme en anneau.
Le diagramme en barres (ou en bâtons) est une autre star des graphiques statistiques. C’est la longueur de chaque barre qui est proportionnelle aux effectifs ou aux pourcentages (malheureusement, il n’est pas rare de voir publiés des diagrammes dont la base des barres n’est pas au niveau 0). Ce type de graphique est parfait lorsque le caractère est quantitatif discret. Il est également utilisé pour les caractères qualitatifs. Toutefois, dans la mesure où les barres se situent sur un axe, ce qui suppose une progression, il est préférable de réserver ce diagramme pour représenter un caractère quantitatif (sauf éventuellement si le diagramme circulaire est illisible en raison de modalités trop nombreuses). Le cas échéant, il est possible de faire ce type de graphique en 3D pour intégrer un second caractère (illustration avec les tableaux de contingence) mais le diagramme à barres empilées reste le plus indiqué.
L’histogramme permet de visualiser une série dont le caractère est continu. Il est formé de rectangles contigus dont les aires sont proportionnelles aux effectifs. On le construit à partir de classes de valeurs. Celles-ci peuvent avoir des amplitudes différentes, ce qui rend la réalisation de l’histogramme compliquée. D’ailleurs les logiciels qui permettent la construction automatique de tels graphiques sont rares et les représentations communément appelées « histogrammes » sont bien souvent de simples graphiques en barres élargies.
Pour résumer, nous avons vu des diagrammes de comparaison (barres), de répartition (circulaire, histogramme) et d'autres qui sont les deux à la fois (barres empilées).
La courbe (ou graphique linéaire) est très souvent utilisée mais, contrairement aux graphiques précédents, moins pour visualiser la façon dont se répartissent des modalités statistiques que pour représenter une série quantitative en situation d’évolution, généralement dans le temps. Cette mal nommée n’est pas courbe puisqu’elle relie de façon rectiligne les points correspondant aux valeurs observées. Il est plus juste de parler de graphique en lignes. Elle indique des effectifs, des pourcentages, des fréquences, un indice ou n’importe quelle mesure. Mathématiquement, la courbe représente une fonction dont il n’existe bien souvent aucune expression algébrique (par exemple l’évolution du PIB). Pour certaines applications on estime qu’une courbe statistique peut être approximée grâce à une expression mathématique (par exemple la diffusion d’un nouveau produit) auquel cas elle est tracée de façon courbe. Sa construction ne fait pas obligatoirement croiser l’axe des abscisses avec le niveau 0 de l’axe vertical.
Deux cas particuliers de courbes sont à signaler : la courbe avec indice 100 et le polygone cumulé croissant (ou éventuellement décroissant) des effectifs (e.c.c) ou des fréquences (f.c.c). Celui-ci ne représente pas une évolution mais la répartition d’une population, à l’instar des graphes répertoriés précédemment.
La boîte à moustaches. Elle présente une synthèse de la dispersion d’une série statistique. Pas très difficile à construire, elle est en revanche délicate à interpréter. L’intérêt de ce type de graphe est surtout de comparer entre elles plusieurs populations (ou échantillons).
Le nuage de points est idéal pour situer des individus en fonction de deux critères quantitatifs, matérialisés par deux axes. Il se peut donc que plusieurs points se situent les uns au-dessus des autres (ils ne représentent pas une fonction). On peut introduire une troisième dimension en remplaçant les points par des disques dont le diamètre est proportionnel à un troisième caractère (graphique en bulles ou bubble chart) et même de rajouter un troisième axe pour une visualisation dans l’espace afin de combiner quatre critères.
Représentations
Les graphiques qui montrent la répartition d’une population statistique sont donc les suivants :
Plus rares...
Par ailleurs, il existe d’autres types de graphes souvent propres à un domaine d’étude. Par exemple, le radar et le graphique sémantique différentiel se rencontrent en marketing et en psychologie. Le graphique en aires montre l’évolution d’un volume (voir le suivi de la masse salariale). Les chandeliers sont des graphiques typiquement boursiers. Les pyramides des âges sont des sortes de doubles histogrammes. Les cartes thermiques intéressent la finance et surtout le marketing digital. Liste non exhaustive !
Enfin, il n'est pas exceptionnel de rencontrer des graphiques mixtes, superposant par exemple une courbe et un diagramme en barres, pour montrer deux séries différentes dans un même repère.
Lien
Pour un panorama plus large des diagrammes et sur l'importance d'une présentation soignée :
www.canva.com/fr_fr/decouvrir/10-facons-dutiliser-diagrammes
Pour tracer des graphiques avec le langage R de base : voir les graphiques (page de généralités qui détaille le diagramme circulaire) et la fonction plot.