Statistiques descriptives sur un caractère
Le B.A-BA des statistiques descriptives ou comment transformer un étal de données en information digeste.
Le cadre d'analyse
Nous étudions une population, c’est-à-dire un ensemble dont les éléments sont des individus au sens statistique : humains, animaux, plantes, objets ou... concepts. Ils sont également appelés unités statistiques, terme souvent mieux approprié. Souvent, les statistiques descriptives constituent la première partie d'une démarche qui se poursuit par des analyses probabilistes ou par des prévisions. Sur cette population, nous disposons d'une série statistique, c'est-à-dire de valeurs prises par une variable statistique, discrète ou continue, et par les effectifs qui leur sont associés.
Notez que si la variable est continue, il peut être délicat de choisir l'unité statistique. Par exemple, pour analyser un échantillon de prélèvements dans une rivière, quelle est l'unité ? Un litre ? Un mètre cube ?
Un premier traitement consiste à regrouper les données dans un tableau. Celui-ci est plus ou moins lisible selon le nombre de modalités. C'est pourquoi il apparaît souvent comme une étape préalable à une présentation visuelle (graphiques) ou plus synthétique (paramètres statistiques).
Les représentations graphiques
Certaines règles méritent d’être respectées, à moins de se complaire dans un travail d’amateur. La première d'entre elles stipule que c'est le type de données qui détermine quel graphique doit les représenter et non le chargé d’études, quelle que soit la sensibilité artistique de ce dernier…
Les principaux types de graphes, illustrés par ceux qui sont enseignés dès le secondaire, figurent en page de graphiques.
Pour visualiser la distribution d'un caractère qualitatif, la représentation habituelle est celle d’un diagramme circulaire. Si vous souhaitez mettre en valeur l'une de ses parts, la plupart des logiciels permettent de la détacher. Exemple d’un diagramme réalisé sous Excel faisant ressortir le poids de la direction commerciale dans l’effectif d’une entreprise :
Un tableur ou un logiciel graphique propose toujours des aménagements (avec les valeurs, des pourcentages, en 3D…). On adapte le diagramme à ce que l’on cherche à montrer. La 3D est souvent réservée aux présentations collectives qui incluent un public moins averti que les décideurs (mais vous pouvez très bien ne pas être d’accord). Voir un exemple avec le tableau de bord de la masse salariale.
Ces diagrammes ne sont pas conçus pour montrer une évolution ou une comparaison. Si l’on souhaite malgré tout visualiser une différence entre deux découpages, on a le choix entre deux diagrammes circulaires côte à côte ou, si l’on manque de place, d’un diagramme en anneau (donut chart) :
Si une hiérarchie peut être admise, on préférera un diagramme en bâtons (nombre d’enfants, de pièces défectueuses, niveau hiérarchique…). Les bâtons sont souvent verticaux. Lorsqu’ils sont horizontaux, les graphiques sont dénommés « diagrammes en barres » par Excel. On peut colorer différemment le ou les bâtons que l’on souhaite mettre en exergue. Notez qu'une présentation en camembert peut toujours être transformée en bâtons.
Les séries statistiques continues sont quant à elles représentées par des histogrammes lorsqu’elles sont regroupées en classes, voire par des fonctions en escaliers. Ce dernier type de graphe, peu fréquent en entreprise, sert surtout à montrer les répartitions en pourcentages (tri à plat).
Des fréquences ou des effectifs cumulés sont visualisés sur une courbe cumulative. Exemple :
Classe | Effectif | Fréquence | Cumul |
1 à 3 | 3 | \(10,0\%\) | \(10,0\%\) |
4 à 6 | 6 | \(20,0\%\) | \(30,0\%\) |
7 à 8 | 9 | \(30,0\%\) | \(60,0\%\) |
9 à 11 | 8 | \(26,7\%\) | \(87,7\%\) |
12 et + | 4 | \(13,3\%\) | \(100,0\%\) |
Total | 30 | \(100,0\%\) |
Autres exemples en pages de courbe ABC et ACP des rangs, entre autres.
Les cumuls inversés sont certes enseignés dès la classe de seconde, mais ils sont d’un emploi si rare que l’on se passera de leur présentation…
L’exemple ci-dessus montre une distribution groupée. Il est en effet souvent plus pratique de grouper des modalités en classes pour être présentées graphiquement, en particulier lorsque ces modalités se rapportent à de faibles effectifs. La « queue de distribution » qui peut inclure des valeurs aberrantes est ramassée en une classe « 12 et + ». Notez aussi sur le diagramme en secteurs vu plus haut le groupement « autres directions du siège » qui évite un découpage trop fin.
Enfin, on ne considérera pas une série chronologique comme une « distribution ».
Les indicateurs
Assez nombreux, les indicateurs descriptifs font l’objet de plusieurs pages sur ce site. On les regroupe ainsi :
Les indicateurs de « tendance centrale » : derrière cette curieuse expression se cachent la moyenne arithmétique, la médiane et le mode. Des moyennes non arithmétiques décrivent elles aussi certaines situations bien particulières. Notez que la médiane s'estime facilement sur une courbe cumulative : c'est l'abscisse du point dont l'ordonnée est 0,5.
Les indicateurs de dispersion : variance, écart-type, écart absolu moyen, étendue…
Les indicateurs de forme : asymétrie et aplatissement.
Les indicateurs de position : quantiles (quartiles, déciles, centiles…). Mais l’étendue interquartile (entre le premier et le troisième quartile) est un indicateur de dispersion.
Un indicateur de concentration : l'indice de Gini.
Les boîtes à moustaches : ce sont des hybrides entre des graphiques et des indicateurs qui résument une distribution.
D'autres outils ne sont pas conçus pour s'appliquer à la série mais à une unité statistique en particulier (son rang, sa profondeur...).
Si l'on ne considère plus la distribution d'une variable statistique mais celle des probabilités qu'elle admet pour chacune de ses valeurs ou modalités, on parle alors de loi de probabilités. Nous quittons le domaine des statistiques descriptives.