Indice de Gini et courbe de Lorenz
Sur cette page, nous allons explorer un sujet transversal bien que rarement présenté comme tel : celui de la concentration des valeurs observées, c’est-à-dire de l’inégalité d’une répartition.
Utilisations hétéroclytes
Utilisé en macroéconomie et notamment par l’OCDE et l’INSEE pour comparer les inégalités de revenu, l’indice de Gini est employé en entreprise dans trois domaines très différents :
Pour la direction des ressources humaines, c’est l’indicateur qui résume l’inégalité des rémunérations dans l’entreprise ou l’unité considérée.
Pour le gestionnaire de stocks, courbes et indice de concentration permettent de savoir si une répartition ABC ou 80-20 est pertinente.
Dans le cadre du scoring, il est très utilisé pour évaluer la plus ou moins bonne qualité d’une grille.
Visualiser la concentration
La concentration doit bien être distinguée de la dispersion d'une distribution à une variable.
On peut visualiser une concentration des revenus grâce à une courbe de Lorenz. En abscisses sont représentées les proportions cumulées d'un partage de l'effectif total (par exemple les dix déciles) et en ordonnées se trouvent les pourcentages cumulés de revenus (proportion de la population située en-deçà du décile). Si la répartition est parfaitement égalitaire, la courbe est donc confondue avec la première bissectrice mais sinon, elle se situe au-dessous. La courbe de Lorenz part de l’origine (\(0\%\) de la population perçoit \(0\%\) du revenu) et se termine au point de coordonnées \((1\,; 1)\) ou \((100\%\,; 100\%).\)
Exemple
Ci-dessous, l’effectif d’une unité de production a été trié par rémunération perçue, en ordre croissant. Un décilage est effectué mais n'importe quel découpage à peu près équilibré aurait été envisageable. On a réparti une masse salariale de 175,4 selon un décilage de la population.
On relève le salaire moyen de chaque écart inter-décile puis la part de ce salaire par rapport au total de la colonne (ou si vous préférez, la proportion de masse salariale versée à chaque dixième de population par rapport à la masse totale). Le cumul est résumé par la courbe de Lorenz, en rouge. À titre d'exemple, \(20\%\) de l’effectif (les salariés les moins bien payés) se partage \(9,24\%\) de la masse salariale (voir aussi la page hiérarchie des rémunérations).
L'aire totale du graphique est égale à 1. Celle qui est située entre les deux courbes se nomme surface de concentration. Plus elle est faible et plus la distribution est égalitaire. Le maximum serait 0,5 (situation d’un seul maître et d’esclaves !). Afin d’obtenir une grandeur comprise entre 0 et 1, on multiplie cette valeur par 2. Le résultat est appelé indice de Gini.
Dans une problématique de scoring (ou plus globalement de risque ou de marketing), l’indice de Gini ne se réfère pas à la différence entre courbe de Lorenz et première bissectrice mais entre une courbe constatée (ROC ou de lift) et une situation parfaite de discrimination fiable à \(100\%.\)
Le mode de calcul de l'indice consiste d'abord à estimer l'aire située sous la courbe de Lorenz. Comme en pratique il s'agit d'une fonction affine par morceaux, le calcul consiste généralement en une somme d'aires de trapèzes. La différence entre ce résultat et 0,5 (aire du triangle) permet évidemment de connaître l'aire de concentration. Nous avons vu qu'il fallait ensuite la multiplier par 2 (ou la diviser par 0,5, ce qui est la même chose, mais qui est peut être plus simple à comprendre : c'est la surface de concentration qui est rapportée à l'aire du triangle) :
\(\displaystyle{\gamma = \frac{\rm{surface\;de\;concentration}}{\rm{aire\;du\;triangle}}}\)
Reprenons notre exemple. L'indice est calculé dans le tableau ci-dessous. En dernière colonne, les aires des trapèzes sont obtenues en multipliant chaque centre de classe par la proportion de population correspondante (ici, 0,1 chaque fois).
Un peu de maths
La suite de cette page présente peu d’intérêt pratique. Elle consiste en un petit exercice visant à remémorer les principes de base de l’intégration.
Soit \(f(x)\) l’expression de la courbe de Lorenz. On suppose qu'elle est représentative d'une fonction ayant une expression algébrique. La surface de concentration est donc la différence entre la droite d’équation \(y = x\) et la courbe représentative d'une fonction \(f\) entre les valeurs 0 et 1. On rapporte cette surface à l'aire du triangle. Donc :
\(\gamma\) \(=\) \(\displaystyle{\int_0^1 {\frac{[x - f(x)]dx}{\frac{1}{2}}}}\) \(=\) \(\displaystyle{2 \int_0^1{[x - f(x)]dx}}\)
Supposons que votre logiciel favori estime par l’équation \(y = x^2\) votre courbe de Lorenz. À combien s’élève l’indice de Gini ? Réponse :
\(\displaystyle{\gamma = 2 \int_0^1{(x - x^2)dx}}\)
\(\displaystyle{\Leftrightarrow \gamma = 2 \left[\frac{x^2}{2} - \frac{x^3}{3} \right]_0^1}\)
\(\displaystyle{\Leftrightarrow \gamma = 2 \left(\frac{1}{2} - \frac{1}{3} \right)}\)
\(\displaystyle{\Leftrightarrow \gamma = \frac{1}{3}}\)