Techniques et concepts de l'entreprise, de la finance et de l'économie 
(et fondements mathématiques)

Les diagrammes en boîte

logo

 

 

 

 

 

 

 

 

 

 

Quartiles et diagrammes en boîte

Les diagrammes en boîte, ou diagrammes de Tukey, encore nommés boîtes à moustaches, sont enseignés au lycée (parfois dès la seconde mais en principe en première S, ES, STMG…). Le texte ci-dessous a été rédigé pour les lycéens car les diagrammes utilisés dans la vie active présentent généralement un peu plus d’informations (étudiants et professionnels, dirigez-vous plutôt vers la page quantiles).

Mais d'abord, intéressons-nous aux quartiles...

Les quartiles (programme de seconde)

Soit une série statistique triée de façon croissante. La population peut être partagée en quatre sous-populations de même effectif. Les valeurs qui correspondent aux limites du partage sont des quartiles. Le deuxième quartile n’est autre que la médiane. Ce sont donc des valeurs associées à des « frontières » et non à des ensembles d’individus. Par exemple, si l’on classe une population de sept souris par ordre de poids (en grammes) et que l’on obtient {20 ; 21 ; 23 ; 24 ; 25 ; 25 ; 26}, la médiane est 24. C’est la valeur du milieu. Comme 7 / 4 = 1,75, le premier quartile, noté Q1, correspond au deuxième individu. C’est donc 21. De même, Q3 = 25.

Il existe un léger problème lorsque le quartile tombe entre deux valeurs observées. Selon une définition qui se veut simplifiée, les programmes de lycée tels qu’ils sont élaborés en France donnent une définition un peu différente de celle des quartiles employés dans la vie professionnelle (et donc par les logiciels). Quelle est-elle ? Le premier quartile est la plus petite valeur de la série d’effectif N telle qu’au moins 25 % des valeurs lui soient inférieures ou égales et le troisième quartile est la plus petite valeur telle qu’au moins 75 % des données lui soient inférieures ou égales. En clair, on ne fait pas la moyenne des deux valeurs qui l’encadrent comme on le fait pour la médiane lorsque le nombre d’observations est pair mais on cherche les valeurs de rangs N / 4 et (3N/ 4 ; si ça ne tombe pas pile sur un entier, on retient l’entier supérieur. Donc, Q1 et Q3 sont de vraies valeurs de la série, ce qui n’est pas forcément le cas de la médiane et encore moins de la moyenne.

Supposons que l’on ajoute une souris de 27 g à notre population. Alors Q1 = 21, Me = 24,5 et Q3 = 25.

Notez bien que tout ceci s’applique aux séries discrètes. Lorsqu'une série est continue, soit on retient une classe de valeurs, soit on estime les valeurs de quartiles par interpolation (voir la page série statistique continue).

L’intervalle interquartile est l’intervalle [Q1 ; Q3]. Il contient au moins la moitié des valeurs de la série. Il ne faut pas le confondre avec l’écart interquartile qui est un NOMBRE (soit Q3 – Q1).

Ces différentes grandeurs (médiane, quartiles, écart et intervalle interquartiles) ne sont pas impactées par d’éventuelles valeurs extrêmes comme peuvent l’être la moyenne ou l’étendue.

Représentation graphique (programmes de première)

S’il existe un domaine où les représentations graphiques sont reines, ce sont bien les statistiques. On n’a rien fait de mieux pour présenter de façon synthétique une quantité parfois très volumineuse de données. Les quartiles sont illustrés par des diagrammes en boîte. Ces instruments étranges ne sont pas difficiles à réaliser mais il faut quand même une certaine habitude pour savoir les interpréter rapidement.

diagramme en boîte

NB : l’épaisseur du rectangle n’a aucune importance.

Grosso modo, plus la boîte est petite avec de grandes pattes autour, plus il y a d’observations proches de la médiane.

Exemple

Lire sur la figure ci-dessous le premier quartile, la médiane, le troisième quartile, l’étendue et l’écart interquartile. Donner l’intervalle interquartile.

exemple de boîte

Réponse : Q1 = 8, médiane = 11, Q3 = 15. L’étendue est de 15 – 7 = 8. L’écart interquartile est égal à la différence entre Q3 et Q1, soit 15 – 8 = 7. L’intervalle interquartile est [8 ; 15].

Dans cet exemple, le troisième quartile a la même valeur que la valeur maximale. Il n’y a donc pas de patte à droite. Si c’est la médiane qui a la même valeur que Q1 ou Q3, il faut l’indiquer d’une façon ou d’une autre (trait épais, en couleur…) pour distinguer avec quel quartile elle se confond (voir la page exercice sur série statistiques discrète).

Exercice

Série 1 : {2 ; 4 ; 5 ; 5 ; 6,5 ; 7 ; 8,5 ; 9}

Série 2 : {2 ; 5 ; 5 ; 5,5 ; 6 ; 6 ; 6,5 ; 7 ; 7 ; 9}

Présenter les deux diagrammes et commenter.

Corrigé

La série 1 comporte 8 observations. La médiane est donc le milieu des valeurs de la série dont les rangs sont n / 2 et (n + 1) / 2, en l’occurrence la quatrième et la cinquième. On obtient 5,75. Q1 correspond au rang 8 / 4 soit n°2. La deuxième valeur est 4. Donc Q1 = 4. Enfin, Q3 = 7 (la sixième valeur).

10 observations composent la seconde série. La médiane se situe donc entre la cinquième et la sixième valeur. Ce qui tombe bien puisque ce sont deux 6. Q1 correspond au rang 10 / 4 donc 2,5, c’est-à-dire le troisième rang. Soit la valeur 5. Q3 correspond au rang 10 × ¾ soit 7,5, donc la huitième valeur qui est 7.

2 séries

Nous constatons que la seconde série est moins dispersée. Il y a davantage de valeurs proches de la médiane.

Il est possible de tracer ces diagrammes avec une calculatrice graphique. Dans la mesure où les définitions des quartiles sont différentes des programmes du lycée, je ne vous conseille pas de vous y fier, surtout sur de petites séries comme celles-ci. Ci-dessous, la différence est flagrante, en particulier sur la première série..

diagrammes en boîte

 

diagramme en boîte

 

© JY Baudot - Droits d'auteur protégés