La médiane

Médiane et médiale

Il ne sera pas question ici des médianes qui partent de l'angle d'un triangle pour terminer leur course au beau milieu du côté opposé et dont le point de rencontre est le centre de gravité. Non, celle qui nous intéresse ici est statistique et n'a pas grand chose à voir avec son homonyme géométrique...

Aujourd'hui, le calcul de la médiane (Me) est en principe enseigné en classe de troisième (voir la page d'introduction à la médiane). Le début de cette page est de ce niveau mais à partir du sous-titre "Développements", le texte s'adresse plutôt aux étudiants et aux professionnels.

 

La médiane

Posons le décor : on observe une distribution à une variable. Cette variable statistique est quantitative. La série est triée par ordre croissant du caractère (ou décroissant, d'ailleurs).

La médiane correspond au deuxième quartile : il s'agit de la valeur prise par l’observation du milieu (ou à la moyenne des deux valeurs du milieu si l'effectif est pair). Exprimons ceci de façon plus mathématique.

Soit \(S\) une série statistique quantitative discrète d'effectif total \(N\) définie par \(S = \{x_i\},\) avec \(1 \leqslant i \leqslant N.\)

Si \(N\) est impair avec \(N = 2p + 1,\) alors Me \(=\) \(x_{p+1}.\)

C'est donc la valeur prise par l'individu n° \(\frac{n + 1}{2}\)

Si \(N\) est pair, avec \(N = 2p,\) la médiane de \(S\) est égale à :

Me \(=\) \(\displaystyle{\frac{x_p + x_{p+1}}{2}}\)

C'est donc la moyenne entre la valeur prise par l'individu n°\(\frac{n}{2}\) et celle prise par l'individu suivant.

Ainsi, lorsque la variable est discrète, la médiane est souvent une valeur observée au contraire de la moyenne qui a de bonnes chances de ne pas l'être. La notion de médiane est un peu plus concrète que celle de moyenne.

Lorsqu'on étudie une série à caractère continu à partir d'un tableau de valeurs, soit on utilise la notion de classe médiane, soit on détermine une valeur médiane par interpolation linéaire (voir la page sur le caractère continu).

La médiane est un indicateur de position centrale beaucoup plus robuste aux erreurs et aux valeurs bizarres que la moyenne. À titre d’exemple, on s’intéresse rarement à la rémunération moyenne d’un effectif hétérogène puisque quelques revenus très élevés vont la « tirer » vers le haut. La rémunération médiane est beaucoup plus pertinente. En entreprise et en économie, les médianes sont souvent des indicateurs intéressants, repris dans les tableaux de bord.

Application : l'exercice sur moyenne...

 

Développements

Malgré sa qualité de robustesse, la médiane est beaucoup moins féconde que la moyenne pour construire les différents outils statistiques. Que l'on songe au succès de la régression linéaire simple, fondée sur la moyenne, par rapport à l'introuvable méthode de Theil, fondée sur la médiane ! Toutefois, les écarts interquartiles et les diagrammes en boîtes permettent d'avoir une bonne idée de la dispersion d'une distribution autour de sa médiane.

Un minimum de bon sens est tout de même attendu de l'analyste : on ne s’intéresse pas à la médiane d’une variable quantitative discrète si elle présente trop souvent la ou les mêmes valeurs. Prenons l’exemple de la progéniture des espèces animales. Le nombre médian observé chez un échantillon de chiennes n’a pas grand intérêt si bon nombre d’entre elles n’ont jamais procréé. Le mode peut en revanche être utilisé. En revanche, pour les espèces sauvages, la médiane est plus significative.

chienne

La médiane est aussi le paramètre-clé lorsque les valeurs sont ordinales. Ce type de variable est très fréquent dans les études marketing.

Ajoutons que la notion de médiane est proche de celle de profondeur maximale, les deux étant égales lorsque l'effectif de la population est impair.

Avec Excel, on utilise soit la fonction MEDIANE(données), soit la fonction QUARTILE(données;2).

L'écart médian est la médiane des écarts (en valeur absolue) par rapport à la moyenne ou à la médiane.

 

La médiane pondérée

Enfin, on utilise dans quelques cas rares la médiane pondérée (par exemple pour certains indices des prix qui cherchent à minimiser les valeurs aberrantes). Les observations sont a priori affectées de poids. On les classe par ordre croissant mais au lieu de retenir celle qui sépare l’effectif en deux parties égales, on retient celle qui partage la masse des poids en deux (en l’occurrence, chaque article ayant une pondération différente dans le panier du consommateur, on retient comme médiane la variation de prix de l’article qui se situe à \(50\%\) du volume du panier).

 

La médiale

Beaucoup moins utilisée que la médiane, elle trouve son utilité lorsqu’un montant global, par exemple une masse salariale, est partagé par un effectif. On s’intéresse cette fois-ci à la valeur médiane de la distribution de la variable et non de l’effectif. Graphiquement, elle correspond à l’ordonnée 0,5 d’une courbe de Lorenz. C’est alors la rémunération du salarié qui permet d’atteindre la moitié de la masse salariale.

 

Exemple

Voici les rémunérations de dix-sept individus classés par ordre croissant de salaire.

médiane et médiale

Le salaire médian est celui du neuvième individu, en l’occurrence M. Chat : 1 600. Si l’on coupe la masse des salaires en deux, c’est-à-dire à 17 170, on constate que la médiale se trouve quant à elle entre MM. Daim et Cheval (soit environ 2 000, par interpolation). Pour sa part, le salaire moyen s’établit à 2 020.

Voir aussi l'exemple détaillé en page d'exercice sur série discrète où la médiane est déterminée grâce aux fréquences cumulées (à l'attention des élèves de seconde et de première).

 

Tests

La qualité de robustesse de la médiane et son importance sur les données ordinales font que ce paramètre est utilisé dans le cadre de certains tests comparatifs (et notamment le test de la médiane).

 

médiane