Quantiles, étendue et boîte à moustaches
Les notions de quantile ou d'étendue, jadis enseignées après le bac, sont considérées aujourd'hui par bon nombre d'élèves de première comme la partie la plus facile de leur programme de mathématiques. Survolons ici quelques-uns de ces symboles du triomphe des statistiques, discipline qui s'impose de plus en plus dans la culture générale... On observe une variable statistique quantitative. Pour celà, on trie les observations afin d'obtenir une distribution à une variable, ordonnée de façon croissante. Les quantiles (ou fractiles) d’ordre k partagent alors l’échantillon en k sous-ensembles égaux. Les quantiles sont appelés centiles (ou percentiles) si k = 100, déciles si k = 10 et quartiles si k = 4. Ils sont respectivement abrégés par C, D et Q. Entendons-nous bien, ce qui nous intéresse n'est pas le numéro de l'observation mais la valeur prise par cette dernière. Si k = 2, l’unique quantile est par définition la médiane (donc, médiane = Q2 = D5 = C50). Si k = 4, le premier quartile est la valeur prise par l'observation n / 4. Lorsqu’un quantile tombe entre deux valeurs, on lui attribue leur moyenne. Les tableurs Excel et OpenOffice disposent des fonctions QUARTILE et CENTILE. Le centilage est utile en préparation de données. Lorsqu’on utilise des méthodes peu robustes aux valeurs extrêmes, comme les régressions ou les analyses factorielles, les observations correspondant aux centiles extrêmes peuvent être retirées ou transformées pour éviter qu’elles ne faussent l’analyse. L’imputation des valeurs situées au-delà d’un certain quantile par la valeur du quantile lui-même s’appelle la winsorisation. Il s’agit généralement du premier et du dernier centile. On a l’habitude de représenter les quartiles sous forme de « boîtes à moustaches » (box plots). La lecture de tableaux de quantiles ou de diagrammes en boîte apporte un éclairage intéressant sur la symétrie d'une distribution mais requiert une certaine habitude. Les diagrammes permettent des comparaisons rapides entre plusieurs distributions. Prenons l’exemple d’une série chronologique, dont la dernière valeur est aberrante : N'importe quel tableur ou logiciel de statistique vous propose sans rechigner la médiane et les quartiles Q1 et Q3. Pour Q1, il s'agit de 16 et pour Q3 de 141. C'est simple puisque sur cet exemple les quartiles sont les valeurs prises par les septième et vingtième observations. En revanche, la médiane tombe entre 76 et 77. On relève donc 76,5. Ci-dessous, ces informations sont fournies par une calculatrice TI-82 STATS disponible dans toutes les bonnes papeteries.
La boîte à moustaches (franchement, un nom pareil…), telle qu’elle est donnée par Statgraphics Centurion, apparaît ainsi :
Le peu visible point rouge (la moyenne) est situé à droite de la ligne verticale (médiane). Cette moyenne est tirée vers le haut en raison d’une valeur aberrante représentée en dehors des moustaches. La « boîte » correspond à l’écart interquartile (Q3 – Q1). Les limites des moustaches correspondent généralement aux premier et neuvième déciles mais d'autres conventions sont possibles, notamment celle de choisir les valeurs extrêmes. Est considérée comme extrême une valeur supérieure à 1,5 fois l’écart inter-quartile. La boîte est parfois présentée avec une encoche autour de la médiane. Il s’agit de l'intervalle de confiance au seuil de 5% qui permet de visualiser, sur deux boîtes l’une en-dessous de l’autre, si les deux médianes peuvent être considérées comme identiques. Ce type de diagramme résume une distribution univariée. Mais une analyse bivariée peut utilement l'intégrer. Si l'on observe un nuage de points, par exemple dans le cadre d'une régression simple, il peut être instructif d'ajouter en dehors du cadre des abscisses et des ordonnées les deux boîtes à moustaches synthétisant la distribution des deux caractères observés de l'échantillon. Le minimum et le maximum d’une série sont fréquemment fournis par les statistiques descriptives des logiciels. L’écart entre ces deux valeurs se nomme l’étendue, intervalle de variation ou empan. Surtout utile pour faire dire n'importe quoi aux statistiques. Un centilage exige une population importante (peu d’intérêt si inférieure à 100 !) et des valeurs suffisamment variées pour éviter d’obtenir des centiles identiques, particulièrement si ces valeurs sont discrètes. Un décilage est bien sûr moins exigeant.
|





